各 位 好 ， 我 是 何 莽 ， 一 名 “95 后 ”程序 员 。 在 2021 年 冬天 
的 一 天 ， 我 在 一 个 技术 和 群 中 和 朋友 提 到 过 我 正在 学 习 和 整理 单 
机 文件 系统 的 技术 内 容 ， 和 希望 能 够 梳理 成 文档 。 后 来 朋友 提 到 
为 什么 不 考虑 把 这 些 资 料 系统 性 地 整理 一 下 ， 考 虑 出 一 本 实体 
书 呢 ? 所 以 基于 这 样 的 建议 ， 我 在 学 习 文件 系统 的 时 候 ， 慢 慢 
通过 搜集 和 整理 资料 就 有 了 这 本 书 的 欠 形 。 当 然 ， 从 写 书 到 最 
终 书稿 内 容 的 完善 历时 一 年 多 ， 同 时 书 中 的 内 容 章节 也 经 过 了 
多 次 的 调整 。 我 写 完 这 本 书稿 时 已 经 是 2023 年 的 春天 ， 没 想到 
反 反 复 复 地 拖延 了 这 么 久 。 

我 写 这 本 书 的 一 个 目的 是 希望 能 够 帮助 一 些 对 单机 文件 系 
统 感 兴趣 的 朋友 进行 深入 学 习 。 因 为 在 和 朋友 交流 的 过 程 中 发 
现 单 机 文件 系统 的 原理 学 习 是 分 布 式 存储 工程 师 的 一 个 重 难点 ， 
如 果 没 有 对 底层 文件 系统 的 深入 理解 ， 那 么 在 存储 开发 和 运 维 
过 程 中 会 碰 到 大 量 的 参数 需要 优化 调整 ， 还 有 遇 到 生产 故障 等 
问题 。 

我 在 写 这 本 书 时 也 一 直 在 思考 ,到 底 这 本 书 要 写成 怎样 的 ? 
市 面 上 不 近 Linux 系统 架构 相关 的 经 典 书 籍 ， 但 是 专门 讲解 文件 
系统 相关 内 容 的 ， 可 以 说 很 少 ， 甚 至 是 没有 。 大 部 分 Linux 书 
籍 是 对 vG 的 内 容 进 行 简单 讲解 浅 尝 斩 止 ， 也 有 一 些 资料 是 讲解 
如 何 实 现 一 个 简单 的 文件 系统 的 ， 会 在 内 核 中 注册 一 个 自 定 义 
的 文件 系统 ， 然 后 实现 基础 的 创建 目录 操作 等 ， 然 而 这 样 的 资 
料 与 分 布 式 存储 工程 师 的 日 常 工作 是 相去 甚 远 的 ， 更 准确 地 说 ， 
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这 样 的 资料 比较 适合 做 一 个 类 似 文件 系统 的 “hello world” 的 
demo 那样 的 小 工具 。 因 此 在 写 这 本 书 时 ， 我 希望 能 够 结合 自 研 
单机 存储 引擎 过 程 中 遇 到 的 一 些 困惑 和 感悟 慢 慢 地 分 享 出 来 。 


读者 对 象 


这 本 书 的 核心 是 希望 能 够 让 读者 深入 理解 单机 文件 系统 原 
理 ， 因 此 对 于 本 书 的 读者 对 象 相对 适合 以 下 人 群 : 

> 分 布 式 存储 工程 师 日 常 进 阶 学 习 文 件 系 统 原 理 。 

> 对 Linux 文件 系统 感 兴趣 的 朋友 。 

当然 ，Linux 文件 系统 的 深入 学 习 相 较 于 一 些 热门 的 技术 方 
向 ， 如 前 端 和 大 数据 等 ， 会 略 显 小 众 ， 因 此 本 书 希 望 读者 具备 
Linux 系统 的 操作 基础 知识 ， 这 是 方便 在 学 习 的 过 程 中 ， 可 以 帮 
助理 解 对 不 同文 件 系统 的 使 用 命令 。 


如 何 阅读 这 本 书 


本 书 主要 分 为 三 大 部 分 ， 其 中 第 一 部 分 是 对 Linux 文件 系统 
的 宾 观 理解 ， 主 要 是 对 文件 结构 和 常见 的 文件 操作 语义 的 理解 ， 
以 第 一 章 为 主要 内 容 。 第 二 部 分 则 是 以 难为 核心 ， 深 入 理解 鸡 
的 部 分 模块 实现 和 技术 原理 ， 以 第 二 章 为 主要 内 容 。 第 三 部 分 
则 是 以 文件 存储 为 核心 出 发 ， 理 解 文件 系统 从 单机 到 分 布 式 过 
程 的 变化 ， 还 有 文件 系统 的 测试 与 优化 等 ， 以 第 三 和 第 四 章 为 
主要 内 容 。 

我 在 写 这 本 书 时 ， 已 经 在 武汉 成 为 一 名 分 布 式 存储 研发 工 
程 师 ， 非 常 感谢 武汉 青云 科技 的 同事 ， 特 别 感谢 团队 同事 黄 
蒙 、 宁 安 、 肖 文 文 、 张 文 、 黄 力 、 杨 俊 、 莫 洪 和 任 忠 华 ， 没 有 
团队 同事 的 协助 和 帮助 ， 就 不 会 有 今天 这 本 书 。 同 时 还 非常 感 
谢 Zeppelin 社区 的 刘 勋 、FastDFS 的 作者 余 庆 和 《elasticsearch 源 
码 解 析 与 优化 实战 》 的 作者 张 超 ， 以 及 黄 亮 和 刘 志 旺 先生 ， 他 
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们 作为 国内 非常 优秀 的 行业 前 辈 ， 在 我 写本 书 的 过 程 中 给 予 了 
我 很 多 的 帮助 和 指导 ， 十 分 感谢 。 另 外 还 要 感谢 我 的 家 里 人 ， 
非常 感谢 他 们 的 理解 ， 写 书 的 过 程 是 一 个 很 大 胆 且 有 挑战 性 的 
工作 ， 他 们 曾经 担心 我 写 的 书 是 否 会 有 读者 关注 ， 能 否 卖 得 好 ， 
等 等 ， 这 也 让 我 对 于 内 容 和 细节 把 控 有 更 多 的 思考 和 想法 ( 笔 
者 邮箱 : hiltontao96@163.com ) 。 
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如 果 只 是 一 般 使 用 ， 选 择 文 件 存储 可 能 有 比较 多 的 空间 ， 
包括 各 种 商业 和 开源 的 。 而 对 于 存储 软件 产品 的 研发 人 员 ， 或 
者 需要 自己 运 维 开源 存储 的 用 户 ， 想 深入 理解 文件 存储 相关 技 
术 原 理 ， 研 究 源码 的 能 力 就 比较 重要 了 。 

由 Ceph 引领 的 开源 分 布 式 存储 热潮 还 没有 过 去 ， 而 Ceph 
并 不 是 在 各 种 应 用 场景 下 都 是 “万 能 ”的 ， 比 如 文件 存储 。 我 
们 看 到 历史 悠久 的 Lustre 仍然 被 HPC 高 性 能 计算 行业 追捧 ; 功 
能 特性 丰富 的 单机 文件 系统 ZFS， 早 年 以 在 Solaris 和 FreeBSD 
平台 优秀 的 代码 质量 而 著称 ， 如 今 移 植 到 Linux 后 应 用 也 变 得 越 
来 越 多 。 许 多 对 成 本 敏感 的 用 户 ， 在 分 布 式 Lustre 的 后 端 ， 用 
ZFS 替代 相对 昂贵 的 传统 商业 SAN 存储 。 

在 开源 项 目 流 行 的 时 代 ， 经 验 和 技巧 的 分 享 是 很 有 价值 ， 
对 整个 行业 都 是 有 益 的 。 我 很 高 兴 看 到 一 名 存储 同行 、 "95 后 ” 
程序 员 何 帮 撰 写 出 新 书 。 


从 本 书 的 目录 章节 “初始 Linux 文件 系统 ”一 “深入 理解 
z 蕉 ”一 一 “文件 存储 从 单机 到 分 布 式 ”一 一 “测试 与 优化 "， 并 


最 后 落 到 “lustre 对 准 参数 优化 "， 是 很 贴近 实用 的 ， 希 望 这 本 
书 能 够 帮助 到 更 多 的 技术 同行 朋友 1! 


《企业 存储 技术 》 微 信 公 众 号 作者 ” 黄 亮 
2023 年 春天 
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1、 初 始 Linux 文件 系统 


1、 初 始 Linux 文 件 系 统 


1.1 为 什么 学 习 文件 系统 


在 深入 学 习 了 解 文件 系统 之 前 ， 我 们 需要 对 了解 一 下 为 什 
么 需要 学 习 文 件 系统 ”如果 要 学 习 文件 系统 ， 那 么 该 学 习 哪 些 
内 容 呢 ? 学 了 文件 系统 之 后 又 有 什么 作用 呢 ? 对 于 这 些 带 见 的 
疑惑 ， 最 好 的 答案 就 是 我 们 需要 和 对 了 解 一 下 分 布 式 存储 工程 师 
的 岗位 要 求 。 

如 果 各 位 时 不 时 去 关注 一 些 招聘 网 站 中 对 于 分 布 式 存 储 岗 
位 的 技能 要 求 ， 以 下 四 点 往往 出 现 的 频率 很 高 。 


> 熟悉 scsi 人 nvme/nfy/smb 等 存储 协议 

> 熟悉 rocksdb/rmda/spdk/dpdk 等 技术 

> 熟悉 glusterfs/lustre/ceph 等 分 布 式 存储 系统 

> 熟悉 文件 存储 高 级 特性 实现 原理 , 如 快照 、QoS 和 多 租户 等 


对 于 以 上 这 些 技能 要 求 ， 虽 然 没 有 提 到 文件 系统 ， 但 是 对 
于 存储 协议 的 原理 ， 是 基于 文件 系统 的 文件 结构 和 语义 的 ， 同 
时 lustre 和 glusterfs 这 些 主流 的 分 布 式 存储 系统 ， 也 是 需要 依赖 
单机 文件 系统 ， 并 且 都 会 对 文件 系统 ， 如 zf 有 一 些 参数 优化 设 
置 ， 因 此 ， 如 果 没 有 深入 了 解 过 单机 文件 系统 原理 ， 往 往 有 很 
多 参数 的 设置 和 实现 很 难 把 握 住 。 

除 此 之 外 ， 目 前 越 来 越 多 优秀 的 存储 广 商 开始 考虑 自 研 的 
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单机 存储 引 警 ， 需 要 适 配 上 层 的 分 布 式 系 统 ， 如 bluestore 和 
filestore 等 。 因 此 深入 学 习 文 件 系 统 的 原理 实现 ， 可 以 看 懂 上 层 
技术 的 本 质 ， 也 可 以 更 加 好 地 把 握 住 技术 实现 变更 优化 方 回 ， 
掌握 技术 核心 竞争 力 。 

当然 在 学 习 分 布 式 存储 技术 的 时 候 ， 往 往 会 被 问 到 是 否 需 
要 专门 学 习 olc++ 语言 ， 尤 其 是 对 于 c++ 语言， 这 门 语言 的 技术 
学 习 门 槛 相对 较 高 ， 语 言 特性 也 比较 复杂 ， 有 时 候 投 入 了 大 量 
的 精力 学 习 了 c++ 语言 的 技术 原理 ， 但 是 似乎 又 感 党 和 技术 岗 
位 不 太 匹 配 。 

对 于 这 样 的 困惑 ， 笔 者 目前 不 建议 去 学 习 c++ 语言 ， 因 为 
语言 是 要 为 项 目 服 务 的 ， 如 果 单 纯 去 看 语言 ， 是 无 法 理解 到 底 
需要 学 到 什么 程度 的 ， 同 时 也 很 难 结合 项 目 去 看 ， 笔 者 更 加 建 
议 看 到 项 目 不 仅 的 地 方 ， 再 去 查 相 关 的 语法 ， 哪 里 不 懂 学 哪里 ， 
这 样 效 率 可 能 会 更 高 。 当 然 ， 笔 者 目前 日 党 使 用 Rust， 这 个 语 
言 如 果 各 位 没有 需求 ， 也 不 建议 马上 次 入 学 习 ， 经 常会 人 门 反 
反复 复 ， 学 了 却 似 仅 非 懂 ， 不 知道 到 底 该 怎么 日 党 使 用 了 。 

那么 接着 我 们 就 需要 知道 文件 系统 中 该 学 习 什 么 模块 的 内 
容 ， 又 该 从 哪里 开始 学 习 呢 ? 对 于 文件 系统 ， 从 日 常 接触 中 可 
以 感知 到 的 就 是 对 文件 的 操作 ,文件 结构 是 一 个 重点 ， 因 为 所 
有 的 操作 命令 最 终 都 是 要 对 文件 进行 操作 的 ， 也 就 是 常 说 的 增 
删改 奋 。 对 于 增删 改 查 ， 其 实 并 不 只 是 我 们 稼 见 到 的 简单 情况 ， 
例如 文件 的 写 和 信也 是 区 分 不 同情 况 的 ,包括 覆盖 写 、 对 齐 写 、 
非 对 齐 写 和 追加 写 等 场景 ， 对 于 这 些 不 同 的 场景 ， 就 是 文件 结 
构 操 作 的 实现 细节 差异 了 。 对 于 这 部 分 内 容 ， 在 后 面 的 小 节 中 
会 分 享 。 

除了 文件 结构 ,文件 系 统 最 终 也 是 要 把 数据 持久 化 到 磁盘 
中 的 ， 通 稼 是 机 械 便 盘 或 者 固态 ， 而 写 和 人 数据 的 机 制 ， 则 是 被 
称 为 数据 事务 落 盘 (transaction group ) ; 除 此 之 外 ， 还 有 文件 系 
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统 的 空间 管理 等 模块 ， 对 于 这 些 内 容 ， 本 书 会 以 zf 为 核心 进行 
深入 分 享 讲解 ， 在 后 面 的 音节 中 进行 分 享 。 


1.2 文件 语义 


很 多 时 候 ， 提 到 Linux 的 时 候 ， 尤 其 是 文件 系统 ， 那 么 必 
然 绕 不 开 posix 标准 这 个 概念 ， 对 于 这 个 概念 的 解释 ， 网 上 有 很 
多 ， 但 是 知道 了 这 些 内 容 以 后 有 什么 作用 呢 ? 研发 人 员 需 要 知 
道 posix 语义 吗 ? 如 果 是 做 分 布 式 存 储 ， 尤 其 是 研究 单机 文件 系 
统 的 研发 ， 还 需要 深入 研究 吗 ? 人 吾 着 这 些 问 题 ， 我 们 一 点 点 来 
探究 其 中 的 奥秘 。 

简单 点 来 说 ，posix 就 是 一 套 标 准 规范 ， 是 为 了 路 平台 使 用 
的 ， 而 平时 要 是 使 用 了 glibe 中 的 api， 或 者 调用 了 Linux 的 系统 
调用 ， 如 write，open 等 ， 那 么 这 些 函 数 需要 有 一 个 标准 ， 这 个 
就 是 posix 标准 了 。 如 果 再 粗糙 点 解释 ， 有 点 类 似 今 天 大 家 所 见 
悉 的 Linux 的 RestEul 标准 (其实 这 样 比喻 是 非常 不 恰当 的 ， 不 
过 可 以 帮助 了 解 ) 

当然 ， 对 于 这 个 标准 有 很 多 函数 ， 这 些 函 数 为 什么 需要 考 
虑 呢 ? 因为 文件 系统 中 ， 系 统 调用 接口 也 需要 遵循 这 样 的 标准 。 
接触 系统 调用 ， 通 常 都 是 从 VFS 开始 的 ， 因 此 先 简单 了 解 一 下 
Linux 中 的 文件 系统 架构 ， 如 1-1 所 示 。 
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用 户 态 


应 用 程序 


VFS 
内 核 态 
IO(Blochk) 


驱动 


机 械 盘 SSD 硬件 层 


错 1-1 


VEFS 可 以 说 就 是 一 个 人口 ,不 管 是 x，z 还 是 ext4 等 文件 
系统 ， 在 执行 的 时 候 ， 都 要 遵循 VFS 上 的 系统 调用 接口 。 

既然 VFS 是 入 口 ， 那 么 稼 见 的 系统 调用 ， 一 般 会 涉及 哪 
些 呢 ? 大 家 通常 会 想到 和 接触 比较 多 的 就 是 增删 改 查 ， 也 就 
是 read，wxite，open 这 些 ， 但 是 对 于 删除 ， 这 里 有 一 个 语义 
truncate ， 可 能 大 家 接触 不 多 《 数据 库 中 也 有 这 个 命令 ， 但 是 使 
用 场景 和 文件 系统 不 同 ， 数 据 库 中 通常 是 用 于 删除 数据 的 ) 那 
么 在 日 党 研发 中 ， 该 如 何 知 道 这 些 语义 标准 呢 ? 最 简单 的 办 法 
就 是 在 Linux 上 查看 ， 如 使 用 命令 


1 “*# man 2 truncate 


3. If the file previously was larger than this size，the extra 
data is lost. If the file previously was shorter，it is exten 
ded，and the extended part_reads as _nul1 bytes (“\67 ) . 


代码 1-1 


从 上 面 的 描述 内 容 可 以 看 到 ，truncate 是 可 以 让 文件 变 大 变 
小 的 ， 如 果 让 文件 变 小 了 之 后 ， 可 能 会 丢失 掉 文 件数 据 ， 也 就 
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是 如 图 1-2 所 示 。 


数据 和 雪 失 部 分 
~ 


truncate 


名 1-2 

那么 什么 时 候 需 要 使 用 到 truncate 这 样 的 命令 呢 ? 有 一 种 场 
景 叫 覆盖 写 : 需要 先 把 文件 的 数据 全 部 删 掉 ， 然 后 只 写 人 部 分 数 
据 ， 并 不 一 定 会 和 原来 写 入 的 大 小 相同 〈 可 能 会 多 ， 也 可 能 会 
少 )。 这 时 候 需 要 先 把 文件 truncate 为 0， 表示 把 文件 原来 所 有 
的 数据 删 掉 ， 接 着 再 写 和 。 

对 于 数据 写 和 信 ， 这 里 还 要 留意 一 个 问题 ， 如 果 写 入 的 时 候 ， 
对 于 某 个 数据 块 不 是 全 才 盖 写 的 话 ， 若 只 写 一 半 ， 例 如 4KB 大 
小 的 数据 块 ， 但 是 实际 数据 只 是 写 人 了 前 面 的 2KB， 如 图 1-3 
所 示 。 
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这 里 就 无 法 知道 后 面 这 部 分 内 容 到 底 是 什么 了 。 这 里 造成 
的 后 果 就 是 ， 可 能 会 在 计算 文件 校 验 码 的 时 候 ， 各 个 节点 的 校 
验 结果 会 不 同 〈 因 为 无 法 保证 数据 块 一 定 是 完全 相同 的 ， 主 要 
就 是 没 被 覆盖 写 的 部 分 )， 所 以 在 使 用 数据 块 的 时 候 ， 要 保证 数 
据 初 始 化 。 同 时 请 留意 ， 有 时 候 部 分 写 ， 也 会 称 为 非 对 齐 写 ， 
因为 并 不 是 对 整个 数据 块 进行 覆盖 写 信 ， 与 此 相对 则 是 对 章 写 。 
关于 这 部 分 ， 后 面 的 小 节 会 深入 分 享 一 下 。 

写 和 人 的 时 候 ， 一 般 是 顺序 写 ， 或 者 追加 写 ， 也 就 是 write 从 
头 开 始 写 入 ， 又 或 者 像 日 志文 件 那样 ， 从 文件 未 尾 开 始 追 加 写 。 
但 是 总 有 一 些 奇怪 的 情况 出 现 ， 例 如 能 和 否 只 写 中 间 一 部 分 呢 ? 
甚至 出 现 写 一 部 分 ， 然 后 空 着 路 跃 ， 再 写 文件 的 另 一 部 分 ， 这 
就 是 空洞 文件 的 来 源 之 一 (这 里 当然 还 有 其 他 场景 会 触发 空洞 
文件 ， 例 如 一 边 写 人， 一 边 被 修复 )， 如 几 1-4 所 示 。 


写 入 数据 写 入 数据 
图 1-_4 

想 要 实现 这 个 效果 ， 这 时 候 系 统 调 用 lseek 就 派 上 用 场 了 。 
使 用 命令 查阅 lseek 命令 文档 的 时 候 ， 大 家 会 发 现 Linux 文档 中 
会 提示 各 位 要 非常 小 心 文件 的 空洞 ， 有 时 候 应 用 程序 是 无 法 发 
现 或 者 理解 的 。 对 于 文件 空洞 ， 是 填充 数据 0， 还 是 没有 写 入 数 
据 呢 ? 这 也 是 有 区 别 的 。 数 字 0 也 是 一 个 数值 ， 而 空洞 则 是 指 
没有 数据 ， 因 此 要 留意 二 者 的 区 别 。 

日 常 中 一 些 常 见 的 中 间 数 据 写 入 的 类 比 场景 ， 可 以 用 双 PS 
文档 来 举例 ， 平 时 写 文 档 的 时 候 ， 第 一 次 可 能 是 从 前 往 后 写 入 ， 
但 是 往往 需要 修改 或 者 润色 部 分 内 容 ， 因 此 对 于 中 间 的 页 面 内 
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容 会 有 修改 的 情况 。 
那么 下 面 看 看 一 些 常 见 的 使 用 truncate 的 场景 o 


// 终 端 1 
“~ 提 ail -和 /tmp/1L.txt 


Sun Aug 7 13:21:18 CST 2622 
Sun Aug 7 13:21:19 CST 2622 
Sun Aug 7 13:21:26 CST 2622 
Sun Aug 7 13:21:23 CST 2622 
Sun Aug 7 13:21:24 CST 2622 
tail: /tmp/1.txt: file truncated 


贸 交 本 | 几 基隆 攻 


Ne 


.// 终 端 2 
. “^# date >> /tmp/1L.tXxt 


. “*# echo > /tmp/1L.txt 


天 | 天 | 于 | 于 | 于 | 于 | 一 
人 小 II 上 ImIP|r 二 | 己 


代码 1-2 


这 里 在 两 个 终端 中 进行 操作 ， 其 中 一 个 使 用 tail 命令 不 断 
监视 查看 文件 输出 内 容 ， 另 外 一 个 终端 输入 一 些 数据 后 ， 使 用 
echo 命令 把 日 志 内 容 清空 , 这 里 就 可 以 看 到 在 taiL 命 令 的 终端 里 ， 
文件 显示 已 经 被 tuncate 了 。 对 于 truncate 语义 的 内 容 ， 后 面 小 
节 也 会 专门 分 享 一 下 具体 的 实现 内 容 ， 因 为 truncate 的 实现 ， 往 
往 会 和 写 人 人 有关， 有 部 分 内 容 是 平时 可 能 不 太 容 易 关 注 到 的 。 

那么 简单 了 解 了 系统 调用 之 后 ， 也 算是 对 VFS 中 的 作用 有 
一 些 简 单 的 接触 了 。 对 于 一 个 正常 的 应 用 服务 ， 如 果 要 读 写 本 
地 磁盘 数据 ， 会 向 本 地 的 文件 系统 发 起 请 求 ， 例 如 使 用 mkdir 
或 者 touch 这 样 的 shell 命令 进行 操作 ， 那 么 首先 会 经 过 VFS 
层 ， 这 个 其 实 是 linux 操作 系统 中 对 于 文件 系统 的 一 个 规范 要 
求 ， 也 就 是 说 ,不 管 是 自 定 义 的 操作 系统 ， 还 是 一 些 ext4， 都 
需要 遵守 一 些 规 范 ， 而 VFS 中 最 核心 的 元 素 就 是 inode，dentry， 
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superblock 和 file 四 个 元 素 。 

inode 是 负责 记录 每 个 文件 的 一 些 元 数据 信息 的 〈 在 linux 
系统 中 ， 一 切 缘 文件 ,不管 是 目录 还 是 devices 设备 ， 都 会 封装 
为 一 个 文件 一 样 调用 )。dentry 对 象 则 是 用 于 记录 文件 的 结构 关 
系 的 ， 也 就 是 不 同 目 录 的 上 下 级 层级 结构 关系 和 树 状 关系 等 。 
superblock 就 是 超级 块 ， 用 于 管理 整个 操作 系统 中 inode 资源 整 
体 使 用 情况 等 ， 如 果 把 文件 系统 比 作 一 个 图 书馆 ， 那 么 图 书馆 
里 面 的 每 一 本 书 就 是 block， 而 书 的 分 类 和 标签 信息 就 是 inode， 
superblock 就 是 统计 整理 整个 图 书馆 的 资源 情况 的 。 包 e 对 象 就 
是 用 于 记录 每 一 本 书 的 租借 情况 ， 对 于 文件 来 说 ， 这 个 文件 是 
否 被 打开 过 ， 是 否 产生 了 文件 句柄 f 乌 (所 谓 的 文件 句柄 可 以 理 
解 为 , 在 file 对 象 和 打开 的 进程 的 数据 结构 中 做 了 一 些 标记 ) 等 。 


1.3 文件 结构 


认识 了 VTS 和 一 些 有 趣 的 系统 调用 后 ， 不 管 任 何 的 系统 调 
用 ,在 文件 系统 中 ， 最 终 都 是 为 了 对 文件 进行 操作 的 ， 因 此 文 
件 到 底 是 怎样 的 ”文件 的 结构 又 有 哪些 内 容 ?” 这 些 东 西 往往 是 
一 个 文件 系统 的 核心 ， 因 为 对 于 文件 读 写 和 数据 落地 等 ， 都 是 
需要 基于 文件 结构 出 发 来 设计 的 ， 因 此 下 面 先 简单 地 来 了 解 一 
下 何 为 文件 。 

可 能 大 部 分 人 对 于 文件 的 印象 如 图 1-5 所 示 ， 脑 海中 文件 
就 是 一 个 长 方形 的 图 片 ， 里 面 写 满 了 数据 ， 一 般 调 用 读 写 请 求 
时 , 关心 的 是 offset 和 count 参 数 , 也 就 是 读 写 文件 的 位 置 和 长 度 ， 
决定 了 文件 从 哪里 开始 读 写 ， 并 且 读 写 多 长 的 数据 ， 还 要 关心 
的 是 文件 的 大 小 size 等 信息 。 
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offset 


File 


Length 


多 1-5 


但 是 实际 上 文件 的 结构 远 远 并 不 是 如 此 简单 的 ， 因 为 文件 
上 面 还 有 一 些 其 他 的 元 信息 《元 信息 的 概念 对 应 不 同 层次 结构 
意义 是 不 同 的 ， 分 布 式 系统 中 的 集群 也 有 元 信息 ， 文 件 有 元 信 
息 ， 请 注意 区 分 不 同 )， 下 面 使 用 stat 命令 展示 一 下 。 


1 ~# Stat 工 .七 xf 

2 FiJLe: 工 .七 Xt 

3 Size: 6 Blocks: 6 IO_Block: 4696 regular empty file 
4. Device: fcelh/64513d Inode: 1543 Links: 1 

5. Access: (6644/-rw-r--r--) Uid: ( 6/ root)， Gid: ( 86/ root) 
6 

7 

8 

9 


Access: 2022-66-29 6086:38:24.722798767 +6866 

Modify: 2622-66-29 66:38:24.722798767 +6866 

Change: 2622-66-29 66:38:24.722798767 +6866 
Birth: - 


代码 1-3 


从 上 面 的 stat 命令 可 以 看 到 ， 对 于 文件 1.t， 这 里 还 记录 
了 三 个 时 间 ， 分 别 是 access time， modify tme 和 change time， 还 
有 文件 的 衣 ， 也 就 是 mode Id4， 这 些 信息 是 每 个 Linux 文件 中 都 
会 具备 的 ， 如 果 文 件 只 是 单纯 记录 了 数据 ， 那 上 面 stat 命令 显 
示 的 元 数据 显然 是 没 地 方 存放 的 ， 因 此 文件 结构 并 不 是 如 代码 
1-3 所 示 如 此 简单 ， 这 里 肯定 还 有 地 方 是 专门 存储 上 述 文件 stat 
言 息 的 。 
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文件 除了 记录 上 面 提 到 的 信息 ， 还 要 记录 数据 ， 要 记录 的 
东西 很 多 ， 而 且 长 度 不 定 〈 对 于 元 数据 信息 ， 也 是 可 以 设置 的 ， 
使 用 setxatt 等 命令 ) 当然 这 里 有 部 分 信息 是 固定 的 、 必 需 的 ， 
如 上 面 stat 中 展示 的 信息 ， 那 么 这 里 就 可 以 把 文件 中 的 信息 分 
为 元 数据 和 数据 两 种 ， 并 且 元 数据 中 也 有 固定 和 非 固定 的 。 


Part3 


Partl 


这 时 候 可 以 考虑 把 文件 分 为 三 部 分 了 ， 如 图 1-6 所 示 ， 其 
中 partl 是 存放 一 些 固定 的 文件 元 数据 信息 的 ，part2 就 是 存放 用 
户 自 定 义 的 信息 的 ，part3 则 是 存放 文件 数据 的 。 对 于 stat 中 要 
展示 的 固定 元 数据 信息 ， 这 里 的 长 度 都 是 确定 的 ， 因 此 partl 的 
长 度 是 可 以 固定 下 来 的 。 

但 是 对 于 part2 和 part3， 这 里 是 无 法 确定 大 小 的 〈 因 为 无 法 
知道 用 户 写 多 少数 据 ， 或 者 写 和 人 多 少 扩展 属性 )， 因 此 文件 可 能 
随时 在 变化 ， 该 如 何 处 理 呢 ? 文件 的 大 小 没有 上 限 〈 只 要 单机 
文件 系统 能 够 文 持 ， 并 且 不 超过 磁盘 上 限 )， 但 一 个 文件 上 百 C 
甚至 上 TB 也 是 正 党 的。 那么 这 里 对 于 part 3 来 说 ， 这 里 的 数据 
是 可 以 不 断 追 加 大 小 的 ， 但 是 考虑 这 里 的 文件 结构 看 起 来 是 长 
方形 的 ， 那 么 在 实际 的 单机 文件 系统 中 ,文件 是 否 就 是 类 似 这 
样 的 结构 ， 也 就 是 一 个 数组 呢 ? 答案 当然 不 是 ， 大 家 还 记得 讲 
系统 调用 的 时 候 提 到 的 truncate 和 lseek 命令 吗 ? 这 里 是 可 以 删 
掉 部 分 空间 的 ， 甚 至 可 以 做 到 写 一 个 空洞 文件 出 来 ， 如 果 使 用 
数组 ， 那 么 该 如 何 表示 空洞 文件 呢 ? 这 里 就 引出 了 另外 一 个 数 
据 结构 一 一 树 。 

稼 见 的 数据 结构 中 ， 树 也 是 其 中 一 个 ， 二 又 树 则 是 天 学 学 
习 数 据 结构 时 必 不 可 少 的 一 个 。 那 么 这 里 在 设计 part 3 的 时 候 ， 
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能 否 对 存放 数据 的 部 分 使 用 二 又 树 呢 ? 也 就 是 如 图 1-7 所 示 。 


header | slot 


3:0| ib 


ib: indirect block 
2:0 ib 本 ib 
1:0Lib | Level 3 


| dbuf dbuf 


全 1 一 7 

这 里 出 现 了 一 种 新 的 文件 结构 示意 图 ， 对 于 这 种 树 形 的 文 
件 结构 ， 在 文件 系统 中 是 非常 常见 的 (xf 使 用 b+ tree，xz 中 
使 用 的 是 avl tree， 对 于 这 些 差异 ， 和 暂时 可 以 不 用 理会 ， 不 影响 
对 主体 结构 的 理解 )。 那么 使 用 了 这 样 的 结构 之 后 ， 有 什么 好 
处 呢 ? 

在 讲解 文件 的 树 形 结构 之 前 ， 需 要 讲 一 下 文件 的 数据 其 实 
并 不 一 定 会 连续 存放 ， 因 为 当 数 据 较 多 时 ， 哪 怕 是 一 次 性 写 入 ， 
在 缓存 中 累积 然后 一 次 性 申请 很 大 的 连续 空间 写 人 人， 虽然 这 样 
做 对 读 取 数据 和 磁盘 写 人 有 提高 ， 但 是 在 实际 的 工程 应 用 中 ， 
数据 缓存 累积 过 多 或 者 累积 时 间 过 长 ， 会 造成 应 用 的 超时 。 如 
果 只 是 写 和 人 缓存 就 以 为 成 功 ， 那 么 一 旦 机 器 宕 机 了 ， 组 存 中 的 
数据 是 会 丢失 的 ， 对 于 存储 系统 来 说 是 最 不 可 接受 的 事情 。 同 
时 哪怕 是 在 内 存 中 缓存 了 很 多 数据 ， 实 际 写 和 人 的 时 候 ， 早 期 的 
磁盘 写 和 人 性 能 都 是 很 慢 的 ， 也 是 需要 一 部 分 一 部 分 数据 慢 慢 写 
入 的 ， 只 是 把 数据 弄 成 了 顺序 写 人 ,那样 会 提高 一 些 效率 〈 相 
对 的 是 随机 写 入 ， 如 同一 文件 写 人 数据， 这 次 可 能 在 磁盘 扇 区 
的 一 边 ， 下 一 次 在 另外 一 边 ， 又 或 者 是 频繁 更 换 柱 面 来 写 和 人 数 
据 ， 对 于 机 械 盘 来 说 ， 这 种 数据 写 人 方式 效率 是 很 差 的 )。 

因此 出 于 多 种 原因 考虑 ， 不管 是 系统 使 用 还 是 机 械 物理 特 
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性 ， 对 文件 写 和 人 的 数据 都 需要 进行 切 分 ， 这 时 候 切 分 的 大 小 一 
般 就 叫 作 plock， 通 常常 见 的 大 小 有 4F、8k、32k 和 64k 等 。 对 
于 一 些 分 布 式 存储 系统 ， 可 能 会 以 M 为 单位 ， 但 是 实际 上 在 写 
入 单机 节点 的 时 候 ， 数 据 落 盘 还 是 会 根据 文件 系统 的 block 大 小 
来 确定 的 。 如 无 特殊 说 明 ， 一 般 默 认 说 block size 是 指 发， 这 是 
最 常见 的 。 

对 于 一 个 文件 ， 头 部 是 固定 大 小 的 ， 其 中 包括 了 前 面 提 到 
的 part 1 的 文件 元 数据 信息 等 ， 还 有 一 些 预 留 字段 和 锁 字 段 ， 同 
时 还 有 一 些 字 段 ， 是 为 了 知道 当前 文件 的 树 形 结构 特性 的 〈 如 
文件 的 level 层级 )。 像 图 1-7 中 ， 这 里 叶子 节点 是 真实 的 文件 
数据 ， 而 也 都 是 被 称 为 间接 块 (indirect block， 简 称 记 )， 当 文 
件 很 大 的 时 候 ， 就 只 是 需要 扩展 一 下 树 形 结构 即 可 ， 文 件 的 大 
小 可 以 有 更 多 的 变化 和 层级 。 注 意 indirect block 和 dbuf 的 称呼 
是 次 中 的 ， 其 他 文件 系统 也 有 类 似 的 说 法 ， 大 家 了 解 即 可 。 

同时 这 里 规定 了 每 一 个 记 块 可 指向 的 子 节 点 数量 是 有 限 
的 〈 这 样 方便 申请 空间 的 时 候 使 用 ， 同 时 计算 树 的 层级 是 方便 
的 )。 那 么 就 意味 着 ， 平 稼 说 的 改变 block size， 就 是 在 改变 数据 


block， 就 是 dbuf。 
3:0[ 五 


dbuf dbuf 


Level 3 


图 1-8 
那么 这 里 再 结合 一 下 前 面 提 到 的 空洞 文件 ， 其 实 就 是 最 底 
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层 的 叶子 节点 中 ， 并 不 是 写 人 每 个 p 对 应 的 子 节 点 ， 甚 至 可 能 
会 出 现 部 分 1: 0 层级 中 的 让 是 不 存在 的 。 

同时 这 里 如 果 要 计算 某 个 数据 块 dhuf 的 位 置 ， 又 该 如 何 计 
算 呢 ? 因为 ip 中 可 以 指向 的 子 节点 是 固定 的 ， 假 设 为 na， 那么 
如 图 1-8 中 13:k 的 ib 所 指向 的 dbuf， 假 设 为 该 也 的 0:(n-l) 
的 子 块 , 那么 该 dbuf 在 整个 树 形 结构 中 的 位 置 就 是 ksn+ (nr-1l )。 
这 里 就 有 点 类 似 相 对 路 径 和 绝对 路 径 的 区 别 。 

当然 还 可 能 会 出 现 一 些小 文件 ， 有 多 小 呢 ? 数据 可 能 并 没 
有 达到 一 个 block 大 小 ， 甚 至 只 有 几 字 节 的 大 小 ， 如 果 这 时 候 使 
用 树 形 结构 ， 那 岂 不 是 非常 浪费 空间 。 因 此 文件 系统 中 ， 为 了 
优化 这 些 内 容 ,， 在 文件 结构 里 面 ， 会 把 数据 放 到 header 头 部 中 ， 
这 种 结构 在 xfs 中 叫 作 short format。 除 此 之 外 还 有 一 些 特殊 的 结 
构 ， 如 zf 中 有 gang block 和 spill bloeck， 这 些 遇 到 后 再 查阅 资料 
即 可 。 图 1-9 则 是 一 个 level 0 的 结构 示意 图 。 


level 0 


配 到 


图 1-9 

在 文件 系统 中 ， 为 了 优化 文件 结构 ， 考 虑 设计 出 很 多 方案 。 
当 文件 的 数据 不 大 不 小 时 ， 也 就 是 文件 数据 的 大 小 并 没有 小 到 
可 以 放 进 文件 header 结构 里 面 ， 同 时 也 并 没有 很 大 ， 可 以 组 成 
多 层 的 文件 level 结构 ， 这 时 候 又 同时 恰好 文件 header 中 预 留 的 
slot 可 以 指向 这 些 实际 文件 数据 〈slot 可 以 理解 为 一 个 指针 结构 ， 
用 于 保留 指向 文件 数据 块 或 者 间接 块 的 )， 这 时 候 就 有 了 图 1-9 
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所 示 的 这 种 文件 结构 了 ， 在 xf 中 ， 这 被 称 为 XFS_DINODE 
FMT_EXTENTS， 也 就 是 extend 结构 。 那 么 这 种 文件 结构 ， 其 
实 就 是 树 形 结构 的 最 开始 状态 ， 也 就 是 level 0 的 状态 ， 和 其 他 
level 层级 结构 不 同 ， 这 里 文件 的 header 中 的 slot 是 指向 了 数据 
块 dbuf 的 ， 也 就 是 没有 了 让 块 。 


// 这 是 xfs 的 文件 结构 ， 在 fs/xfs/1ibs/xfs_format.h 中 
typedef struct xfs_dinode 1 


1 

2 

3 

4. U8 di format; 
光 。 be64 di_nblocks; 
6 

邓 

8 


U8- -二 forkoff:; 


enum xfs_dinode_fmt Tf 
9. XFS_DINODE_FMT_DEV， /# Xxfs_dev 七 */ 
10._XFS_DINODE_FMT_LOCAL， /#k bulk data *#/ 
11. _ XFS_DINODE_FMT_EXTENTS， /#k struct xfs_bmbt_rec #/ 
12._ XFS_DINODE_FMT_BTREE， /# struct xfs_bmdr block *#/ 
13._XFS_DINODE_FMT_UUID _ /* added long ago，but _ never Used *#/ 


代码 1-4 


来 看 一 下 xf 文件 结构 中 的 一 些 字段 ， 为 了 方便 查看 ， 可 
以 在 linux repom 下 载 。 这 里 xs 中 提 到 的 三 种 文件 结构 LOCAL， 
EXTENTS 和 BTREE 就 是 上 述 提 到 的 三 种 情况 ，LOCAL 就 是 数 
据 内 藤 到 了 文件 结构 内 部 ， 也 叫 作 short format; EXTENTS 对 应 
level 0 的 情况 ,而 BTREE 则 是 对 应 level 大 于 0 的 情况 。 

在 xfs_dinode 的 结构 体 中 ， 有 一 个 字段 叫 di_forkoff， 这 个 字 
段 的 作用 就 是 用 来 区 分 part 2 和 part 3 的 间隙 的 ， 如 图 1-10 所 
示 ， 因 为 在 xf 的 设计 中 (按照 目前 最 新 的 Sx 设计 )， 虽 然 整个 
dinode 结构 体 大 小 是 确定 的 ， 然 而 对 于 part 2 和 part 3 之 间 的 大 
小 是 动态 的 ， 那 么 forkoff 这 个 字段 就 是 用 来 分 隔 这 两 部 分 的 界 
限 了 。 
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forkoff 


Fil 
图 1-10 


对 于 part 2 和 part 3 的 名 称 ， 在 xfs 中 分 别称 为 data fork 和 
attribute fork. 

另外 在 extd 和 xf 文件 系统 中 ，extend 的 概念 可 以 理解 为 底 
层 是 连续 的 block 数组 ， 而 难 中 则 没有 使 用 该 概念 ， 还 是 使 用 
block， 一 般 常 抑 的 block size， 还 是 4k、8k、16k， 对 于 这 个 的 
差异 ， 目 前 来 说 并 没有 太 大 的 影响 ， 大 家 了 解 即 可 。 

学 习 了 前 面 的 知识 之 后 ， 大 家 可 以 思考 一 下 ， 如 果 block 的 
大 小 改 为 了 32k， 那 么 这 里 是 改变 数据 块 的 大 小 ， 还 是 会 改变 间 
接 块 的 大 小 呢 ? 


1.4 file 和 inode operation 


对 于 VFS， 了 解 过 的 朋友 对 inode，fle 和 dentry 这 三 个 结 
构 不 太 陌 生 ， 那 么 对 于 一 个 文件 系统 来 说 ， 在 Linux 中 结构 是 
struct file 结构 ， 如 下 所 示 。 

对 于 Linux 的 源码 ， 如 无 特殊 说 明 ， 默 认 Linux 5.x。 


struct inode { 


const _ struct inode_operations *i_op; 


| 


union 


”深入 理解 文件 系统 原理 和 实践 


9 Const struct file_operations *#i fop;j /* former ->1i_ op-> 
default_file_ops *#/ 


void (#free_jinode)(struct inode #); 


}; 


汉 | 训 并 


代码 1-5 


对 于 inode 结构 体 ， 这 里 非常 值得 关注 的 字段 ， 分 别 就 是 
inode_operations 和 和 ile_operations 字段 ， 顾 名 思 义 ， operation 翻 
译 过 来 是 操作 ， 那 么 上 述 两 个 字段 分 别 就 是 对 inode 和 fie 的 操 
作 , 因此 , 这 里 有 什么 操作 呢 ? 为 什么 需要 拆 分 为 两 个 操作 呢 ? 
为 了 理解 这 些 问 题 ， 需 要 进一步 看 看 这 两 个 字段 的 具体 内 容 。 

1._ struct_ inode_operations { 


爷 stpPruct dentry *# (#1ookup) (struct inode *#,struct dentry *+， 
unsigned int); 


邓 

4. int (*create) (struct User_namespace *#， Struct inode *， 
Struct dentry *， 

入 umode 七 ，bool); 

6 

驳 int (*mkdir) (struct user_namespace #，Sstruct inode *,struc 
tt dentry *#， 

8. umode 七 ); 

9. int (#rmdir) (struct inode *,Sstruct dentry ) 


10. int (*mknod) (struct User_namespace #，Sstruct inode *#， 
Struct dentry *#， 

1 umode _t,dev 七 ); 

12. int (*rename) (struct User_namespace *#， struct inode *， 
Struct dentry *， 

3: Struct inode *，struct dentry *，unsigned int); 

14._ int (fsetattr) (Struct User_namespace *#，Sstruct dentry *#， 

19. StRUC 七 主 at 二 六 沪 ， 

16. int (#getattr) (struct user_namespace *+， const struct 


path *#， 
17. struct kstat *，U32，unsigned int); 
18. 
19.】} 
代码 1-6 
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这 里 看 到 inode_operation 中 ， 主 要 就 是 创建 修改 和 设置 
inode 的 扩展 属性 ， 另 外 这 里 还 有 一 个 叫 lookup 的 ,在 Linux 中 ， 
因为 目录 结构 是 树 形 结构 ， 因 此 想 要 查找 到 一 个 文件 ， 必 须知 
道 该 文件 的 inode 结构 ， 这 样 才 能 准确 定位 到 文件 的 数据 位 置 和 
其 他 信息 ， 因 此 lookup 就 是 做 这 个 功能 的 。 

现在 假设 要 读 取 一 个 路 径 为 /ab 下 的 ce 文件， 那么 这 里 按 
照 绝 对 路 径 ， 则 是 /ab/e， 每 次 需要 先 获 取 到 上 级 目录 ， 然 后 才 
能 定位 到 该 目录 下 的 子 目 录 或 者 文件 。 查 找 的 时 候 ， 这 里 会 对 
目录 文件 的 名 称 作 hash 的 ， 这 样 便于 做 索引 优化 查询 速度 。 

而 在 Linux 中 ， 关 于 查询 的 内 容 ， 可 以 见 Linux 内 核 代码 fg/ 
namei.c 中 的 link_path_walk 函数 。 在 该 冰 数 中 有 一 段 无 限 循环 
代码 ， 如 下 所 示 。 


1 static int link_path_walk(const char *name， struct nameidat 


a #nd) 
2 
薄 人 
4. for(;) { 
3 号 
6. if (unlikely(!*name)) 
了 link = walk_component(nd，68); 
8. }elset{ 
9. link = walk_component(nd，WNALK_MORE) ; 
10. } 
11. } 
12. 上 


代码 1-7 


这 里 的 无 限 循环 ， 就 是 不 断 遍 历 解析 路 径 的 ， 解 析 的 时 候 ， 
会 遇 到 各 种 情况 ， 例 如 当前 目录 或 者 文件 是 一 个 连接 ， 那 么 需 
要 调用 其 他 函数 来 处 理 的 ， 又 或 者 该 目录 是 一 个 挂 载 点 ， 那 么 
需要 跳 转 到 对 应 的 文件 系统 下 来 进行 处 理 。 正 党 来 说 ， 对 于 遍 
历 ， 这 里 会 调用 walk_component， 接 着 会 调用 lookup_fast， 那 么 
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这 里 就 会 涉及 _d_lookup_reu 数 来 最 终 寻找 到 文件 的 inode 信 
息 ， 该 困 数 会 和 rcu 的 内 容 有 关 。 

RCU 其 实 是 内 核 中 的 一 个 机 制 ， 对 于 读 多 写 少 的 情况 何 为 
多 和 少 呢 ? 根据 Linux 下 的 文档 说 明 ， 如 果 一 个 结构 ， 写 和 人 的 
次 数 大 于 读 取 次 数 的 10%， 那 么 写 就 不 算 少 了 ， 当 然 这 里 还 要 
结合 具体 情况 来 看 ， 而 对 于 这 样 的 结构 ， 例 如 链表 或 者 数组 的 
话 ， 是 可 以 做 一 些 优化 的 ， 主 要 就 是 拆 分 链表 减少 加 锁 带 来 的 
时 间 消 耗 ， 关 于 这 部 分 内 容 ， 可 以 具体 看 linux 源码 的 文档 ， 在 
Documentation/RCU 下 。 


1._ struct file_operations 《 


2 struct module *owner; 

3 ssize tt (#read) (struct file *，CcChar __user *，Ssize_t， 
下 gf 下 -本 兴 )3 

4. ssize 七 (kwrite) (struct file *#， Const char __uUser #， 


Size 七 ， loff 七 *); 
和 ssize 七 (kread_iter) (Struct kiocb *，struct iov_iter *)) 
6. Ssize 七 (ywrite_iter) (Struct kiocb *#，Sstruct iov_iter *#); 
光 
8 


int (#mmap) (struct file *，struct vm_area_struct *) 
unsigned long mmap_supported_flags; 
9. int (#*open) (struct inode *#，Sstruct file *#); 
10._ int (#*flush) (struct file *k，fl_owner 七 1d)); 
11. _ int (#release) (Struct inode *，struct file *#); 
12. _ int (#fsync) (Struct file +*+，1JLIoff tt，1loff 七 int datasync); 


13._ int (*#fasync) (int，struct file *，jint) 3 


14. int (#*1lock) (struct file *，jint，struct file_ lock *)); 


代码 1-8 


从 inode_operations 和 和 file_operations 的 内 容 来 说 ， 其 实 就 是 
对 应 着 文件 结构 中 ， 对 文件 元 信息 的 操作 和 数据 的 操作 。 

这 里 讲 了 这 些 内 容 以 后 ， 可 以 来 思考 一 个 问题 ， 为 什么 
Linux 不 允许 创建 一 个 同名 的 目录 和 文件 呢 ? 


1、 初 始 Linux 文件 系 统 


1._ # 丰 ouch 1 
2. # mkdir 1 
3._ mkdir: cannot_ create directory “1”: File exists 


代码 1-9 


出 现 这 个 问题 的 原因 ， 和 前 面 提 到 的 查询 过 程 有 关 ， 因 为 
同名 的 不 管 是 目录 还 是 文件 ， 都 会 被 称 作 hasn， 那 么 会 得 到 一 
个 相同 的 nash 结果 出 来 ， 无 法 通过 校 验 。 同 时 因为 像 open 的 时 
候 ， 规 定 的 系统 调用 天 数 并 没有 给 出 参数 来 指明 当前 的 路 径 名 
你 是 一 个 什么 类 型 的 文件 ， 因 为 有 可 能 是 链接 ， 设 备 等 ， 无 法 
区 分 不 同类 型 的 同名 文件 。 


1 _ int open(const char *pathname，jint flags，mode_t mode); 


代码 1-10 


1.5 注册 与 卸载 文件 系统 


如 果 想 要 自己 注册 一 个 文件 系统 ,那么 可 以 参考 Linux 中 的 
源码 ， 例 如 参考 一 下 xf 中 的 内 容 ， 首 先 有 一 个 包 e_system_type 
字段 ， 这 里 定义 了 该 文件 系统 的 名 称 类 型 等 信息 。 


1._ static struct file_system_type xfs_fs_type =【f 
2 .Owner = _ THIS_MODULE， 

久 .name ”= “xfs”， 

4. .init fs _context = xfs_init fs_context， 

3: .parameters = xfs_ fs _parameters， 

6 .kil1 sb = kil1l_ block_super， 

7 .fs_flags = FS_REQUIRES_DEV | FS_ALLOW_IDMAP， 
8 )} 


代码 1-11 


这 里 可 以 看 到 定义 的 文件 系统 名 称 为 xs， 然 后 有 xfs_fs_ 
type 变量 之 后 ， 需 要 注册 到 内 核 中 ， 这 里 的 函数 是 register_ 
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filesystem。 

1 STATIC _ int init 

2._ init_xfs_fs(void) 

3 二 

4. 

全 xfs_dir_startup()); 

6 error = xfs_cpu_hotplug_init(); 
芝 二 

8 error = _register_filesystem(&xfs_fs_type); 
9 

10.， 上】 


代码 1-12 


当然 ， 有 注册 就 该 有 印 载 ， 印 载 的 函数 名 称 叫 作 unregister_ 


filesystem， 如 代码 1-13 所 示 : 


STATIC void eXit 


exit_xfs _ fs(void) 


{ 


xfs_qm_exit(); 


unregister filesystem(&xfs_fs_type); 


xfs_mru_cache_uninit(); 


xfs_destroy_workqueues() 1; 


xfs_destroy_zones(); 


xfs_uuid table free(); 


xfs_cpu_hotplug_destroy(); 


代码 1-13 


因此 如 果 想 要 了 解 一 个 文件 系统 的 启动 和 仓 载 ， 都 可 以 考 


虑 从 这 两 个 函数 入 手 。 当 然 除 了 这 些 ， 还 要 定义 非常 多 的 操作 
国 数 ， 这 些 就 是 与 旭 e operation 相关 的 信息 了 ， 前 面 有 提 到 过 。 
人 习 ， 这 也 是 
一 个 文件 系统 学 习 的 切 人 点 。 


020 


1、 初 始 Linux 文 件 系统 


1.6 接口 错误 码 


用 命 


在 讲解 常见 的 错误 码 之 前 ， 需 要 先 分 享 两 个 常见 的 系统 调 
令 ， 主 要 用 于 辅助 查看 错误 码 信息 的 


1.6.1strace 命令 


js 


这 个 命令 主要 的 用 途 就 是 查看 系统 命令 的 调用 ， 如 下 所 示 。 


$sudo strace touch /tmp/abc/V1.txt 


2. execve(“/usr/bin/touch”，[ “touch”，“/tmp/abc/V1.txt2”]，6x7ffe7 
1679ae8 /*# 17 Vars *#/) = 

3._brkCNULL) = _6x12ee666 

4. access(“/etc/1d.so.preload”，R_OK) = -1 ENOENT (No_ such 
file or directory) 

5._ openat(AT_FDCND，“/etc/1d.so.cache”，0_RDONLY|0_CLOEXEC) = 

6._ fstat(3，{st_mode=S_IFREG|68644，st_size=139933，...}) = 

7 mmap(NULL， 139933， PROT_READ， MAP_PRIVATE，3，6) 
= _6x7f9b5f7fb666 

8 close(3) = 6 

9. openat(AT_FDCND，“/1ib/x86_64-1Linux-gnu/1libc.so.6”，0_ 
RDONLY|0_CLOEXEC) = 

10.，read(3，“\177ELFNX2NA1NX1N\3N6N\6N\6\6\6\6N\6\6\3\8>\6N\1\6N\6\6\26 
6ANA2NX6NA6N\6N6\6”...，832) = 832 

11.，Tfstat(3，{st_mode=S_IFREG|6755，st_size=1824496，...}) = 6 

12，、mmap(NULL， 8192， PROT_READ|PROT_WRITE， MAP_PRIVATE|MAP_ANONYM 
0US，-1，68) = 6x7f9b5f7f9666 

13.， mmap(NULL， 1837656， PROT_READ ， MAP_PRIVATE|MAP_DENYWRITE， 3， 
6) = 6x7f9b5f638666 

14.，mprotect(69x7f9b5f65a660，1658886，PROT_NONE) = 

15，、mmap(9x7f9b5f65a6698，1343488， PROT 大 EXEC， MAP_ 
PRIVATE|MAP_FIXED|MAP_DENYWNRITE，3，6x22666) = 6x7f9b5f65a666 

16， mmap(9x7f9b5f7a2669， 311296， PROT_READ， MAP_PRIVATE|MAP_ 
FIXED|MAP DENYWRITE，3，6x16a666) = 6x7f9b5f7a2666 

17， mmap(6x7f9b5f7ef666，24576， PROT_READ|PROT_WNRITE， MAP_ 
PRIVATE|MAP_FIXED|MAP_DENYWRITE， 3， 6x1b6666) = 6x7f9b5f7e 
f666 

18，、mmap(6x7f9b5f7f5669，14336， PROT_READ|PROT_NRITE， MAP_ 
PRIVATE|MAP_FIXED|MAP_ANONYMOUS，-1，6) = 6x7f9b5f7f5666 

19._ close(3) = 6 

20.，arch_prct1(ARCH_SET_FS，6x7f9b5f7fa586) = 6 

21.，mprotect(9x7f9b5f7ef666，16384，PROT_READ) = 
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22.，mprotect(8x4166696，4696，PROT_READ) = 0 
23.，mprotect(@x7f9b5f845666，4696，PROT_READ) = 6 
24.，munmap(6x7f9b5f7fb666，139933) = 0 
25. brk(NULL) =_6x12ee666 
26.brk(6x136f666) = 6Xx136f666 
27. openat(AT_FDCND，“/usr/lLib/locale/locale-archive”，0_ 
RDONLY|0_CLOEXEC) = 3 
28.， fstat(3，{st_mode=S_IFREG|6644，st_size=16988896，...}) = 6 
29，、mmap(NULL， 16988896， PROT_READ， MAP_PRIVATE，3，6) 
= _6x7f9b5ebbd666 
30._close(3) = 6 
31.， openat(AT_FDCWD，“/tmp/Vabc/V1.txt”，O0_NRONLY|0_CREAT|0_ 
NOCTTY|0_NONBLOCK，6666) = -1 ENOENT (No such file or direc 
tory) 
32.，utimensat(AT_FDCND，“/tmp/abc/V1.txt”，NULL，6) = -1 ENOENT (N 
0 _ such file or directory) 
33. openat(AT_FDCND，“/usr/share/locale/locale.alias”，0_ 
RDONLY|0_CLOEXEC) = 3 
34，fstat(3，{st_mode=S_IFREG|6644，st_size=2995，...}) = 6 
35S.，read(3，“# Locale name alias data base.Nn#"...，4696) = 2995 
36.，read(3，“”，4696 ) = 6 
37._close(3) = 6 
38. openat(AT_FDCNWD，“/usr/share/1locale/en_GB/LC_MESSAGES/ 
copreutils.mo”，O_RDONLY) = -1 ENOENT (No such file or direc 
tory) 
39. openat(AT_FDCND，“/usr/share/1locale/en/LC_MESSAGES/coreutils. 
mo”，O_RDONLY) = -1 ENOENT (No such file or directory) 
40.，Wwrite(2，“touch: “，7touch: ) 二 
41，、wprite(2，“cannot touch “/tmp/Vabc/V1.txt?”，29cannot touch “/ 
tmp/abc/1.txt”) = 29 
42.，openat(AT_FDCND，“/usr/share/locale/en_GB/LC_MESSAGES/1Libc . 
mo”，O_RDONLY) = 3 
43.，fstat(3，{st_mode=S_IFREG|6644，st_size=1433，...}) = 6 
44.、mmap(NULL， 1433， PROT_READ， MAP_PRIVATE，3，6) 
= 6x7f9b5f81d666 
45. close(3) = 6 
46.， openat(AT_FDCND，“/usr/share/1locale/en/LC_MESSAGES/1ibc . 
mo”，O_RDONLY) = -1 ENOENT (No _ such file or directory) 
47.， Write(2，“: No such file or directory”，27: No such file or d 
irectory) = 27 
48.， wprite(2，“Nn>”，1 
49. ) = 工 
50. close(1) = 0 
5S1. close(2) = 6 
52.，exit_group(1) 吉 = 昌 
5S3.，+++ exXited With 1 +++ 
代码 1-14 
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从 这 里 可 以 看 到 ， 如 果 创 建 一 个 文件 ， 前 面 的 目录 路 径 是 
不 存在 时 ， 那 么 是 会 返回 错误 但 信息 的 ， 同 时 ， 如 果 以 后 看 到 
一 些 系统 命令 使 用 ， 发 现 提 示 Operation not support 这 样 的 信息 
时 ， 那 么 就 可 以 根据 strace 命令 ,来 看 看 具体 是 哪 一 步 的 命令 调 
用 没有 支持 ， 又 或 者 命令 卡 住 了 ， 也 可 以 通过 strace 命令 来 辅助 
排查 问题 。 


1.6.2 man 命令 


man 命令 相信 大 家 都 了 解 ，man 命令 是 有 助 于 查询 Linux 
命令 手册 的 ， 而 一 般 来 说 ， 可 以 使 用 man write 来 查看 write 这 
个 系统 调用 接口 的 情况 ， 然 而 还 可 以 使 用 man 2 write 来 查看 该 
命令 ， 感 兴趣 的 朋友 可 以 对 比 看 看 ， 二 者 得 到 的 结果 会 有 什么 
不 同 。 


1.6.3 错误 码 


在 Linux 命令 中 ， 如 write 命令 会 见 到 一 些 常见 的 错误 伍 ， 
如 EAGAIN 、EIO， 那 么 对 于 这 些 命令 的 返回 ， 自 研 文件 系统 的 
时 候 ， 需 要 把 内 部 的 错误 信息 转换 为 对 应 的 错误 码 返回 给 fase， 
然后 再 进行 对 应 的 处 理 。 

其 中 这 里 特别 需要 留意 有 一 些 错 误 码 是 可 重 试 的 ， 但 是 有 
一 些 是 不 需要 重 试 的 ， 例 如 EAGAIN 错误 可 以 进行 重 试 ， 但 是 
对 于 EIO 和 EDQUOT 错误 ， 一 般 就 是 磁盘 出 现 异 常 了 或 者 磁盘 
限制 容量 达到 上 限 了 ， 并 且 状 态 不 可 逆 的 时 候 ， 这 时 候 进 行 重 
试 ， 也 是 类 似 的 错误 ， 应 及 时 地 进行 其 他 异常 错误 处 理 。 

如 果 是 自 研 的 单机 存储 引擎 ， 通 常会 自 定义 一 些 内 部 的 错 
误 码 ， 这 些 错 误 码 是 为 了 细 分 和 识别 不 同 的 场景 下 的 信息 ， 如 
磁盘 异常 ， 往 往 会 分 为 磁盘 数据 错误 、 磁 盘 掉 线 等 情况 ， 而 如 
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果 单 纯 使 用 EIO 这 样 的 错误 来 展示 ， 是 很 难 具 体感 知 错误 问题 
的 ， 同 时 打印 到 日 志 中 也 无 法 辅助 快速 排查 问题 ， 因 此 往往 会 
细 分 不 同 的 场景 类 型 错误 码 ， 但 是 最 终 都 会 对 应 到 Linux 的 系统 
调用 接口 错误 码 返 回 客户 端 ， 这 也 是 错误 码 的 对 应 关系 转换 。 


1.7 文件 对 齐 和 非 对 齐 写 


文件 的 操作 往往 大 家 最 熟悉 的 是 增删 改 查 ， 对 于 写 人 操作 ， 
其 实 也 分 为 很 多 不 同 的 类 型 ， 其 中 包括 对 齐 和 非 对 齐 写 ， 这 二 
者 带 来 的 差异 会 使 性 能 和 技术 实现 上 有 所 不 同 ， 因 此 本 小 节 就 
来 了 解 和 学 习 一 下 文件 对 齐 写 和 非 对 章 写 的 内 容 。 


File 人 ie 


入 1-11 

这 是 一 个 很 基础 的 文件 展示 形式 ， 我 们 通常 可 以 把 文件 理 
解 为 一 个 很 长 的 形式 ， 至 于 里 面 到 底 是 数组 还 是 树 形 结构 ， 其 
不 同 的 存储 系统 有 其 独特 设计 。 对 于 Linux 文件 系统 来 说 ， 通 
常 文件 是 树 形 结构 的 ， 有 些 是 b+ 树 ， 有 些 是 avl， 不 管 是 哪 种 ， 
我 们 通通 以 二 又 树 的 形式 来 看 竺 就 好 ， 具 体 的 数据 结构 差异 ， 
并 不 影响 我 们 对 文件 结构 的 理解 。 所 谓 的 对 齐 读 写 与 否 ， 是 针 
对 存储 系统 的 最 小 数据 单位 来 说 的 ， 例 如 文件 系统 中 ， 通 常 默 
认 是 4kb， 但 是 像 HDFS 和 ceph 这 些 系统 ， 往 往 是 以 MD 为 单位 
的 。 这 里 的 对 齐 读 写 问 题 , 主要 指 代 Linux 文 件 系统 。 也 就 是 说 ， 
这 里 的 读 写 ， 默 认 以 4kh 为 单位 。 

如 果 这 时 候 要 对 该 数据 块 进行 4k 的 写 信 ， 若 刚好 覆盖 这 个 
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数据 块 ， 这 种 就 被 称 为 对 齐 了 。 与 此 相反 ， 如 果 要 读 写 的 范围 
不 是 刚好 覆盖 这 个 数据 块 的 ， 有 可 能 会 出 现 以 下 情况 。 

(1) 读 写 跨 多 个 数据 块 的 ， 如 一 半 在 前 面 ， 一 半 在 后 面 。 
并 且 都 不 完全 履 盖 多 个 数据 块 。 

(2 ) 读 写 在 一 个 数据 块 内 部 的 ， 如 写 入 前 面 或 者 后 面 2k 的 
数据 。 

以 上 两 种 情况 ,不 管 是 哪 种 ， 都 会 面临 一 个 问题 ， 需 要 先 
把 数据 块 从 磁盘 中 加 载 出 来 ， 再 进行 写 人 处理。 为 了 更 好 理解 
这 个 过 程 ， 我 们 以 第 二 种 情况 ， 也 就 是 写 和 人 一 个 数据 块 内 部 的 
情况 为 例 。 假 设 现在 需要 写 入 前 站 的 内 容 ， 那 么 步 又 如 下 所 示 
( 非 对 齐 )。 

(1) 从 磁盘 中 读 取 该 数据 块 ， 假 设 为 a， 加 载 到 内 存 中 。 

(2) 从 内 存 中 申请 一 个 新 的 性 的 数据 块 , 假设 为 b。 

(3) 写 入 b 中 前 2K 的 内 容 , 读 取 a 中 后 xk 的 内 容 ， 回 填 到 
b 的 后 2k 中 。 

(4) 把 b 的 内 容 刷新 持久 化 到 磁盘 中 。 

这 就 是 一 次 非 对 齐 写 人 的 过 程 了 ,那么 和 对 齐 写 入 的 区 别 ， 
其 前 三 步 会 有 区 别 ， 下 面 是 对 齐 写 入 的 过 程 。 

(1 ) 内 存 中 申请 一 个 新 的 性 数据 块 ， 假 设 为 b。 

(2 ) 直接 复制 数据 写 入 b 中 。 

(3) 把 b 的 内 容 持久 化 刷新 到 破 盘 中 。 

从 这 两 个 过 程 就 明显 可 以 看 出 来 ， 对 齐 写 人 是 少 了 一 次 从 
磁盘 加 载 数据 块 的 过 程 ， 因 为 是 完整 的 覆盖 写 ， 不 需要 关心 原 
来 的 数据 是 怎样 的 。 请 注意 ， 从 磁盘 中 加 载 数据 的 过 程 是 非常 
慢 的 ， 因 此 如 果 系 统 中 有 大 量 的 非 对 齐 写 和信， 效率 会 很 低 ， 这 
就 是 为 什么 很 多 存储 系统 极力 不 推荐 非 对 齐 读 写 的 原因 之 一 。 

对 于 非 对 齐 写 人 ， 也 是 写 和 人 数据 块 的 前 寂 内 容 ， 我 们 对 原 
来 的 数据 块 a 做 一 个 假设 ， 后 面 的 2k 内 容 ， 真 的 都 有 内 容 吗 ? 
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如 果 没 有 ， 或 者 部 分 没有 ， 会 出 现 什么 问题 和 后 果 ? 我 们 来 分 
别 列举 一 下 试 试看 。 


1.7.1 假设 一 : a 的 后 2k 中 , 没有 内 容 


对 于 这 种 情况 ， 我 们 是 否 可 以 优化 一 下 上 面 的 过 程 ， 如 下 
所 示 。 

(1) 从 磁盘 中 读 取 该 数据 块 , 假设 为 a， 加 载 到 内 存 中 。 

(2 ) 从 内 存 中 申请 一 个 新 的 你 的 数据 块 , 假设 为 b。 

(3) 写 入 b 中 前 ?2k 的 内 容 。 

(4) 把 b 的 内 容 刷新 持久 化 到 磁盘 中 。 

区 别 就 是 在 第 三 步 中 ， 我 们 并 不 需要 再 次 读 取 a 的 内 容 中 
的 后 2k 进行 回填 了 。 当 然 可 能 会 有 人 有 括 惑 ， 这 里 第 一 步 是 否 
还 有 必要 呢 ? 当然 有 必要 ， 如 果 不 读 取 数据 块 a， 如 何 知 道 后 面 
是 没有 内 容 呢 ? 所 以 第 一 步 也 是 没有 办 法 省 略 的 。 那 么 接 下 来 
我 们 再 来 看 其 他 假设 的 情况 ， 再 讨论 这 样 会 有 什么 问题 。 


1.7.2 假设 二 : a 的 后 2k 中 , 只 有 最 后 的 1k 有 数据 


这 种 情况 ， 相 比 起 前 面 的 内 容 ， 也 是 第 三 步 的 差异 ， 就 是 
回填 k 的 内 容 就 好 了 。 相 信 大 家 也 不 难 理解 。 对 于 这 两 种 情况 ， 
大 家 不 知道 是 否 发 现 问题 所 在 ? 那 就 是 第 三 步 了 ， 不 管 是 假设 
一 还 是 假设 二 的 情况 ， 数 据 块 b 中 ， 没 有 回填 的 内 容 ， 到 底 是 
什么 ? 答案 是 不 知道 ， 因 为 申请 的 一 个 缓存 数据 块 空间 ， 我 们 
永远 无 法 知道 ， 之 前 到 底 里 面 保存 了 什么 数据 ， 因 此 对 于 没有 
填充 的 数据 区 间 部 分 ， 可 能 会 存在 数据 ， 可 能 会 不 存在 数据 ， 
所 以 我 们 永远 无 法 知道 内 容 ， 这 样 可 能 会 导致 数据 块 的 校 验 出 
现 异 常 。 例 如 假设 二 中 的 情况 ，a 的 后 下 ， 只 是 填充 了 最 后 的 
lk 数据 ,那么 b 前 面 的 ]k 有 数据 ， 会 导致 校 验 不 对 。 因 此 为 了 
解决 这 个 问题 ， 不 管 哪 种 情况 ， 对 于 申请 到 的 新 的 数据 块 b， 都 
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要 重新 重 置 数据 〈 填 零 )， 而 且 必 须 对 整个 数据 块 进行 的 。 


1.8 文件 truncate 


对 于 前 面 小 节 中 提 到 的 文件 被 提示 包 e tuncated， 表 示 该 文件 
展示 的 内 容 已 经 被 truncated 删 掉 了 。 那 么 这 里 就 产生 一 个 小 疑惑 ， 
能 否 再 次 对 truncated 的 文件 进行 追加 内 容 呢 ? 例如 使 用 date >> 
xxxtxt 文件 这 样 的 操作 。 答 案 是 可 以 的 ， 这 个 小 实验 很 简单 ， 大 
家 可 以 自行 尝试 一 下 。 同 时 该 操作 也 说 明 一 个 情况 : truncate 并 
不 会 删除 文件 ， 否 则 不 应 该 可 以 再 次 追加 内 容 。 

同时 为 了 更 加 准确 地 知道 runcate 的 含义 ， 再 次 借助 Linux 
man 命令 来 获取 该 命令 的 使 用 ， 还 包括 了 有 具体 的 参数 等 情况 ， 
现在 先 让 我 们 来 看 看 man 文 档 中 是 如 何 撒 述 truncate 的 , 如 表 1-1 
所 示 。。 


ITRUNCATE(1) User Commands 
ITRUNCATE(1) 

NAME 

truncate - shrink or extend the size of a file to the specified size 


SYNOPSIS 
truncate OPTION..。. FILE..。 


DESCRIPTION 

Shrink or extend the Size of each FILE to the specified size 

A _ FILE argument that does not exist is created. 

If a FILE is larger than the specified size，the extra data is 
lost. If a FILE is shorter， 让 is extended and the extended part (hole) 
reads as zero bytes. 

Mandatory arguments to long options are mandatory for 
short options too 


表 1-1 
这 段 话 里 面 ， 包 括 了 shrink 和 extend 两 个 关键 字 ， 这 两 
个 单词 很 好 理解 ， 分 别 对 应 缩小 和 扩大 。 对 于 缩小 ,那么 可 能 
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会 丢失 数据 (the extra data is lost )。 当 然 不 管 是 哪 种 情况 ， 这 
里 都 没有 提 到 文件 会 删除 ， 所 以 还 是 验证 了 前 面 我 们 提 到 的 情 
况 ， 那 就 是 truncate 不 会 删除 文件 ， 这 点 很 重要 ， 千 万 不 要 把 
tuncate 和 rm - 女 删 除 命令 摘 混 了 ， 这 是 有 本 质 区 别 的 。 

那么 我 们 接着 需要 思考 一 个 问题 ， 什 么 情况 下 需要 truncate 
呢 ? 如 果 接 触 过 数据 库 ， 如 mysql 等 ， 可 能 大 家 使 用 或 者 听 过 
truncate table 的 操作 ， 这 个 操作 往往 是 清空 数据 ， 但 是 并 不 删除 
表 ， 这 和 文件 的 操作 有 点 类 似 ， 但 是 数据 库 中 truncate 和 文件 系 
统 里 面 的 使 用 还 是 有 区 别 的 。 

文件 系统 中 使 用 truncate 变 大 是 为 了 提前 把 文件 结构 构建 
好 。 为 了 理解 这 句 话 ， 我 们 可 以 来 思考 一 个 这 样 的 场景 ， 如 果 
文件 的 数据 块 是 默认 的 全 ， 那 么 一 个 4G 的 文件 ， 文 件 层 级 会 
是 多 少 呢 ?7 这 个 取决 于 文件 结构 的 具体 情况 。 假 设 每 个 叶子 节 
点 的 父 节 点 ， 可 以 指向 1024 个 叶子 节点 (这 已 经 是 非常 大 的 数 
量 了 ， 但 实际 上 文件 系统 往往 并 不 会 有 那么 多 ， 因 为 指向 每 个 
叶子 节点 的 指针 都 需要 一 定 的 空间 ， 上 千 个 指针 需要 的 空间 也 
非常 大 了 )。 即 使 这 样 ， 还 是 需要 数 以 干 计 的 节点 来 指向 叶子 
节点 。 

同时 还 要 需要 记得 这 样 一 个 情况 ,文件 在 不 同 大 小 的 时 候 ， 
文件 层级 是 不 一 样 的 。 也 就 是 说 ， 如 果 文 件 刚 开 始 写 入 的 时 候 ， 
因为 数据 很 小 ， 可 能 level 是 1， 后 面 会 慢 慢 变 成 2， 最 后 可 能 
到 达 5、6 等 ， 如 图 1-12 所 示 。 
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图 1-12 

图 1-12 就 是 一 个 简单 文件 结构 的 变化 图 ， 每 次 当 文 件 写 人 
一 定 程度 要 进行 变换 level 时 ， 必 然 需要 阻塞 住 其 他 的 写 和 人， 因 
为 要 先 变化 文件 结构 ， 会 改变 父 节 点 的 指向 〈 大 家 可 以 想 想 具 
体 的 变化 情况 )。 那 么 这 样 会 导致 写 和 人 的 时 候 有 停顿 ， 有 一 点 类 
似 jvm 的 垃圾 回收 时 的 “stop the world ”。 

因此 为 了 解决 这 个 问题 ， 当 文件 要 创建 之 后 ， 可 以 先 使 用 
tuncate 一 次 性 把 文件 指定 到 最 后 想 要 写 和 人 的 大 小 ， 提 前 把 文件 
结构 创建 好 ， 然 后 在 写 入 时 可 以 并 发 写 入 ， 这 样 可 以 提高 速度 。 


1.8.1truncate 变 大 


有 了 这 样 的 需求 之 后 ， 我 们 接 下 来 就 需要 思考 第 二 个 问题 
了 ， 如 果 使 用 runcate 变 大 之 后 文件 的 大 小 显示 到 底 应 该 是 多 少 
呢 ? 因为 这 时 候 只 是 先 提 前 把 文件 结构 构件 好 ， 没 有 真正 写 人 
数据 ， 但 是 又 使 用 了 truncate 变 大 。 为 了 解答 这 个 问题 ， 我 们 通 
过 实际 来 证 明 一 下 。 
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$ Stat 2.txt 

File: 2.txt 

Size: 6 Blocks: 6 IO _ Block: 4696 “regular empty file 
Device: 16363h/66367d Inode: 2464865 Links: 1 


Access: (6644/-rw-r--r--) Uid: ( 1688/ hilton) Gid: ( 1966/_ hilton) 


Access: 2023-602-26 13:45:11.491626371 +6866 


Modify: 2623-62-26 13:45:11.491626371 +6866 


Change: 2623-62-26 13:45:11.491626371 +6866 
Birth: - 


$ truncate -S 1624 2.txt 


$ Stat 2.txt 

File: 2.txt 

Size: 1624 Blocks: 6 IO _ Block: 4696 “regular file 
Device: 16363h/66367d Inode: 2464865 Links: 1 


Access: (6644/-rw-r--r--) Uid: ( 1688/ hilton) Gid: ( 1966/ hilton) 


Access: 2023-602-26 13:45:11.491626371 +6866 


Modify: 2623-62-26 13:45:26.331679645 +6866 


Change: 2623-62-26 13:45:26.331679645 +6866 


Birth : 


代码 1-15 


tuncate 变 大 之 后 的 大 小 ， 就 是 指定 的 文件 大 小 ， 目 前 并 没 
有 做 任何 的 数据 写 入 ， 因此 有 了 第 二 条 说 明 出 现 : truncate 变 大 ， 
文件 的 大 小 会 以 指定 的 size 为 准 ， 哪 怕 没 有 实际 数据 写 入 。 

如 果 创 建 了 文件 之 后 立刻 进行 kuncate， 这 时 候 是 一 个 空 文 
件 ， 虽 然 文件 的 size 显示 是 很 大 的 ,但 是 会 造成 了 一 些 “ 误 解 ”。 
因为 后 面 要 写 和 人 数据 的 时 候 ， 可 能 已 经 隔 了 很 信 ， 同 时 文件 会 
被 关闭 或 者 被 系统 重启 ， 打 开 文 件 写 和 人 的 时 候 ， 并 不 知道 文件 
是 否 是 真实 数据 ， 是 否 不 会 让 文件 系统 去 磁盘 读 取 数据 ， 才 发 
现 并 没有 真正 的 数据 出 现 性 能 损耗 。 

这 是 一 个 好 问题 ， 解 决 这 个 问题 的 方法 也 是 很 简单 ， 那 就 
是 可 以 在 文件 的 元 数据 里 面 加 上 一 个 文件 的 “真实 数据 大 小 ”， 
例如 以 一 个 “real size” 来 进行 标记 (可 以 以 real_size 来 表示 )， 
但 是 这 个 数值 并 不 一 定 会 在 stat 中 展示 出 来 ， 是 一 个 内 部 的 使 
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用 字段 ， 文 件 有 写 人 之后， 文件 写 和 人 偏 移 不 断 往 后 ， 同 时 该 数 
值 也 不 断 累 加 ， 但 是 不 会 超过 文件 的 大 小 。 

引入 一 个 内 容 来 解决 问题 ， 那 么 往往 也 会 引起 另外 一 个 问 
题 。 使 用 了 real_size 来 解决 文件 内 部 显示 真实 大 小 之 后 。 下 面 
有 一 种 场景 如 图 1-13 所 示 。 

File 

名 1-13 

上 图 是 一 个 相对 特殊 的 文件 ， 其 中 虚线 部 分 表示 文件 没有 
写 人 ， 实 线 部 分 代表 文件 有 真实 数据 。 这 个 文件 的 出 现 ， 可 以 
是 先 创建 一 个 文件 ，truncate 变 大 ， 接 着 写 人 的 时 候 ， 指 定 偏 移 ， 
然后 再 指定 下 一 次 的 偏 移 量 ,那么 写 人 就 不 会 是 完全 连续 的 ， 
会 是 一 种 写 一 部 分 ， 然 后 路 过 ， 再 写 另 一 部 分 的 情况 (这 种 情 
况 相 对 少见 )。 

这 里 就 会 产生 另外 一 个 问题 了 ， 前 面 提 到 的 real_size， 到 
底 是 指向 多 少 呢 ? 是 文件 偏 移 量 最 大 的 那 一 次 写 入 的 文件 大 小 ， 
也 就 是 不 管 中 间 是 如 何 跳跃 写 人 的 ，real_size 都 应 该 记录 偏 移 量 
最 大 的 那 一 次 写 入 的 大 小 。 根 本 原因 就 是 偏 移 量 最 大 的 那 一 次 
写 和 人 决定 了 文件 最 终 的 结构 形式 。 


1.8.2 truncate 变 小 


前 面 提 到 了 文件 uncate 变 大 的 情况 , 接着 来 了 解 一 下 truncate 
变 小 , 相 较 于 变 大 , 变 小 遇 到 的 问题 会 更 加 复杂 一 些 。 如 图 1-14 
所 示 。 
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以 前 面 提 到 的 文件 为 例 ， 这 里 如 果 使 用 truncate 变 小 ， 那 么 
指定 一 个 到 一 个 大 小 后 ， 以 该 大 小 为 分 界线 ， 超 过 该 范围 的 文 
件数 据 会 入 弃 ， 同 时 会 修改 变 小 后 的 文件 大 小 。 那 么 通过 这 个 
例子 ， 这 里 就 又 可 以 有 一 条 说 明 : truncate 变 小 ， 会 丢失 指定 大 
小 后 到 文件 原来 大 小 范围 内 的 数据 ， 这 是 一 个 范围 的 数据 丢弃 。 
为 什么 这 里 要 加 上 一 个 范围 的 数据 丢弃 呢 ? 这 是 因为 


别 是 适合 于 要 进行 批量 丢弃 删除 数据 的 场景 。 一 个 场景 就 是 要 
删除 日 志文 件数 据 ， 有 时 候 测 试 数 据 很 多 ， 需 要 在 进行 测试 之 
前 ， 清 空 原来 的 旧 数 据 ， 但 是 并 不 想 删 掉 日 志文 件 ， 往 往 会 使 
用 truncate -s 0 的 命令 来 直接 清空 ， 当 然 使 用 echo > 这 样 的 重 定 
各， 也 可 以 达到 相同 的 目的 。 

那么 truncate 变 小 的 时 候 ， 丢 弃 数 据 后 就 会 产生 一 个 问题 ， 
如 果 要 指定 大 小 ， 恰 好 不 是 对 齐 写 的 怎么 办 ? 也 就 是 对 于 边界 
的 数据 块 该 如 何 处 理 呢 ? 为 了 更 好 地 理解 这 个 问题 ， 可 巾 峡 
1-15 来 解释 。 


032 


1、 初 始 Linux 文 件 系统 


~ 
truncate 


4K 
名 1-15 

为 了 简化 场景 ， 假 设 现在 要 truncate 变 小 ， 在 最 后 一 个 数 
据 块 内 部 ， 可 能 会 存在 上 述 的 场景 ， 恰 好 runcate 指定 的 大 小 ， 
是 该 数据 块 内 部 ， 那 么 对 于 该 数据 块 该 如 何 处理 呢 ? 这 里 假设 
truncate 到 3k 大 小 ， 其 步骤 如 下 所 示 。 

(1) 读 取 原 来 的 数据 块 as 

(2) 内 存 申请 一 个 新 的 同样 大 小 的 数据 块 b, 初始 化 
( 置 零 )。 

(3 ) 读 取 a 的 前 3k 内 容 ,， 回填 到 b 中 。 

(4) 刷新 持久 化 b 的 内 容 到 磁盘 中 。 

通过 上 面 的 步骤 可 以 看 到 这 其 实 就 是 一 次 非 对 齐 写 。 所 以 
对 于 truncate 变 小 ， 往 往 也 会 伴随 着 非 对 齐 写 ， 同 时 很 多 文件 系 
统 也 会 把 truncate 纳入 write 的 范畴 ， 这 就 是 其 中 的 一 个 原因 。 

那么 这 里 就 又 会 产生 一 个 问题 ， 如 果 truncate 变 小 需要 进行 
一 次 非 对 齐 写 ， 如 上 述 的 场景 ， 那 么 这 里 记录 的 文件 大 小 ， 应 
该 是 4k 还 是 实际 的 3k 呢 ? 下 面 来 看 看 情况 。 


$ stat 2.txt 
ELe' 雪 - 区 X 巧 
Size: 1624 Blocks: 6 IO Block: 4696 
regular file 
Device: 16363h/66367d Inode: 2464865 上 E 定 ES 法 
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Access: (6644/-rw-r--r--) Uid: ( 1666/ ”hilton) Gid: ( 1666/ 
hiltony) 
Access: 2623-62-26 13:45:11.491626371 +6866 
Modify: 2623-62-26 13:45:26.331679645 +6866 
Change: 2623-62-26 13:45:26.331679645 +6866 
Birth: - 


$ truncate -Ss 166 2.txt 


$ Stat 2.txXt 
File: 2.txt 
Size: 166 Blocks: 6 IO Block: 4696 
regular file 
Device: 16363h/66367d Inode: 2464865 Links: 1 
Access: (8644/-rw-r--r--) Uid: ( 1666/ hilton) Gid: ( 1666/ 
hiltony) 
Access: 2023-602-26 13:45:11.491626371 +6866 
Modify: 2623-62-26 14:44:59.497141769 +6866 
Change: 2623-62-26 14:44:59.497141769 +6866 
Birth: - 


代码 1-16 


展示 的 文件 size， 一 定 都 是 由 命令 指定 的 ， 但 是 前 面 我 们 提 
到 ， 往 往 可 以 在 内 部 使 用 一 个 real_size 来 指定 其 真实 大 小 ， 这 
里 其 实 也 应 该 是 要 使 用 入 的 ， 而 不 是 联 ， 因 为 一 个 数据 块 内 
部 只 要 有 数据 ， 那 么 就 以 整个 数据 块 大 小 为 最 小 单位 进行 计算 ， 
并 不 应 该 去 考虑 最 小 单位 内 部 到 底 具 体 有 多 少数 据 ， 这 往往 也 
是 一 个 计算 大 小 的 准确 简便 方法 。 

前 面 提 到 了 一 些 情况 的 说 明 ， 下 面 都 来 归纳 一 下 。 


放 truncate 不 会 删除 文件 

> truncate 不 管 变 大 变 小 ， 最 终 显示 文件 大 小 以 命令 指定 
size 为 准 

> truncate 变 小 ,需要 丢弃 指定 大 小 后 的 数据 
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对 于 runcate， 可 以 看 成 是 一 个 很 特殊 的 写 入 。 同 时 在 对 象 
存储 中 ， 往 往 不 一 定 会 支持 该 语义 ， 因 为 其 相对 复杂 的 同时 需 
求 也 不 频繁 ， 而 且 会 出 现 很 多 问题 ， 因 此 往往 只 有 在 文件 系统 
中 才 会 接触 比较 多 。 当 然 深 入 理解 了 truncate 之 后 ， 会 对 文件 结 
构 和 语义 有 了 更 加 深刻 的 理解 ， 不 管 是 文件 存储 还 是 对 象 存储 ， 
在 如 何 使 用 truncate 的 问题 上 会 有 更 多 的 思考 和 把 握 了 ， 只 要 使 
用 得 当 ，truncate 也 是 一 个 很 好 用 的 命令 。 


1.9 文件 数据 写 入 write 


对 于 文件 的 常见 操作 一 一 增删 改 查 ， 其 中 write 是 大 家 接触 
比较 多 的 操作 ， 而 在 文件 系统 的 实现 中 ， 对 于 写 人 也 有 一 些 不 
同类 型 ， 同 时 也 有 一 些小 细节 值得 关注 留意 ， 下 面 来 了 解 一 下 。 


1.9.1 问题 一 : 写 入 是 到 内 存 就 返回 还 是 会 直接 刷新 到 磁盘 的 


通 党 来 说 ， 数 据 是 会 写 和 内存 中 的 ， 并 不 会 马上 刷新 ， 因 
为 数据 落 盘 的 性 能 实在 太 差 了 ， 不 管 是 ssd 还 是 hdd， 人 性 能 上 来 
说 还 是 比 不 上 内 存 的 。 往 往 在 文件 系统 中 ， 写 入 的 数据 都 是 先 
在 缓存 中 保存 ， 累 积 到 一 定 程 度 或 者 一 定时 间 后 ， 再 进行 刷新 
落 盘 的 ( 像 z 难 和 xs， 通 常 是 30s 左右 )。 

如 何 保证 文件 一 定 是 落 盘 的 , 那么 这 就 是 fyne 命令 的 功能 ， 
通常 会 把 对 应 的 文件 在 内 存 中 的 数据 进行 落 盘 。 同 时 这 也 意味 
着 ， 对 于 文件 数据 的 write 请 求 ， 写 和 请求 成 功 ， 并 不 代表 数据 
的 安全 性 得 到 保证 了 。 同 时 这 里 就 延伸 出 另外 一 个 小 问题 了 ， 
数据 写 和 人 缓存 里 面 ， 那 么 是 不 是 只 能 让 客户 端 来 发 起 刷新 呢 ? 
一 旦 遇 到 绥 存 被 修改 的 数据 累积 过 多 ， 那 么 该 如 何 处 理 呢 ? 

这 个 问题 其 实 也 很 好 解决 ， 那 就 是 后 台 定 时 刷新 ， 在 稼 见 
的 文件 系统 中 ， 这 里 就 有 定时 刷新 的 队列 ， 一 旦 达到 了 浆 值 就 
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会 刷新 进行 数据 持久 化 落 盘 ， 通 常 这 个 时 间 默 认 是 30s， 不 宜 过 
上 晚 ， 也 不 能 过 早 。 如 果 过 晚 ， 可 能 每 个 大 文件 写 和 人 了 一 部 分 数 
据 之 后 ， 就 会 把 内 存 空 间 用 完 导 致 溢出 了 ; 相反 如 果 过 早 ， 那 
么 可 能 数据 累积 太 少 ， 每 次 持久 化 的 数据 只 有 KB 级 别 的 话 ， 那 
么 落 盘 数据 的 写 入 性 能 会 很 差 。 如 果 以 生活 场景 来 举例 ， 过 早 
地 刷新 数据 ， 类 似 于 公交 车 在 始 发 站 中 ， 只 要 有 一 两 个 乘客 上 
车 ， 那 么 就 马上 出 发 ， 这 样 可 能 后 面 有 其 他 乘客 过 来 乘 车 时 ， 
公交 车 已 经 在 路 上 了 ， 需 要 等 竺 很 长 一 段 时 间 。 


1.9.2 问题 二 : 文件 的 写 入 , 追加 写 和 帮 盖 写 有 区 别 吗 


首先 明 确 一 下 内 容 ， 所 谓 的 追加 写 ， 就 是 从 文件 的 边界 开 
台 写 入 ， 例 如 现在 文件 大 小 是 全 ， 那 么 追加 就 是 写 在 文件 末尾 
开始 写 人 ， 不 会 覆盖 之 前 已 经 写 人 的 内 容 ; 相反 ， 罗 盖 写 则 是 
重复 写 和 人 之 前 的 空间 中 ， 可 能 是 对 齐 写 ， 也 可 能 是 非 对 齐 写 。 
那么 这 两 种 写 人 有 区 别 吗 ?答案 是 追加 写 可 能 会 改变 文件 结构 ， 
但 覆盖 写 不 会 。 


， 


儿 1-16 

就 以 图 1-16 为 例 ， 如 果 是 追加 写 ， 那 么 可 能 写 和 的 偏 移 
量 的 边界 刚好 是 文件 结构 的 变化 ,那么 这 时 候 就 需要 修改 文件 
结构 了 ， 在 礁 中 会 用 文件 level 表示， 而 在 xfs 中 则 是 short 和 
b+tree 结构 等 表示 ， 本 质 上 都 是 类 似 的 。 那 么 这 两 者 的 差异 在 
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哪里 呢 ? 一 旦 修改 文件 结构 ， 那 么 必然 文件 的 元 数据 信息 是 需 
要 更 改 的 ， 同 时 需要 申请 新 的 数据 空间 来 存放 中 间 节 点 的 信息 ， 
而 不 只 是 文件 数据 。 

当然 最 重要 的 区 别 之 一 在 于 追加 写 会 导致 文件 在 异常 修复 
的 时 候 有 区 别 。 如 果 写 人 请 求 失败 〈 例 如 文件 写 人 数据 和 日 志 
成 功 了 ， 但 是 还 没 来 得 及 修改 其 他 信息 机 顺 就 挂 了 )， 若 这 时 候 
进行 日 志 解 析 ， 则 需要 考虑 文件 结构 是 否 发 生 了 变化 。 简 单 来 
说 ， 就 是 写 和 人 日 志 的 解析 需要 考虑 文件 是 否 需 要 truncate， 因为 
可 能 之 前 文件 是 level 1 的 ， 但 是 这 次 写 入 变 成 了 level 2， 因 此 
在 解析 写 入 之 前 ， 需 要 先 重 新 构建 文件 结构 ， 这 一 点 就 和 履 盖 
写 有 很 大 的 不 同 ， 同 时 也 是 为 什么 waite 请 求 的 日 志 解 析 需 要 考 
虑 truncate 的 原因 。 


1.9.3 问题 三 : 文件 数据 写 入 ， 能 否 做 到 一 边 写 入 一 边 异 常数 据 


首先 说 说 为 什么 会 提出 这 个 问题 ， 因 为 在 很 多 分 布 式 系统 
里 面 ， 其 实 是 存在 文件 区 间 锁 的 ， 其 可 以 提高 文件 并 发 写 人 性 
能 ， 等 等 。 但 是 有 一 点 需要 注意 ， 到 底 文 件 的 区 间 锁 是 否 真 的 
有 效果 呢 ? 因为 从 上 一 个 问题 可 以 知道 ， 如 果 文 件 的 写 和 人 是 追 
加 写 ， 那 么 其 可 能 会 修改 文件 结构 ， 但 是 文件 结构 一 旦 被 修改 ， 
那么 必然 是 影响 到 整个 文件 的 ， 所 以 对 于 追加 写 ， 往 往 是 无 法 
让 区 间 锁 生效 的 。 

我 们 知道 通常 在 三 副本 的 系统 里 面 ， 不 管 是 单机 还 是 分 布 
式 的 ， 如 果 有 一 个 磁盘 异常 了 ， 但 是 数据 还 是 在 写 人 ， 接 着 异 
常 磁 盘 重新 上 线 恢复 的 话 ， 那 么 写 人 也 在 继续 ， 这 时 候 是 该 先 
修复 异常 数据 还 是 继续 写 和 人 呢 ? 

这 里 分 为 几 种 情况 ， 如 果 文 件 不 存在 ， 那 么 必然 是 要 移 创 
建文 件 的 ; 但 是 如 果 文 件 是 存在 的 ， 只 是 大 小 不 一 致 ， 那 么 往 
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往 牵扯 到 该 问题 。 对 于 这 种 情况 来 说 ， 通 常 是 无 法 做 到 一 边 修 
改 一 边 写 入 的 。 因 为 通常 的 文件 写 信 ， 例 如 使 用 fio 或 者 cp 一 
个 很 天 的 文件 ， 那 么 这 时 候 的 写 入 也 是 从 前 到 后 不 断 写 入 的 ， 
因此 大 部 分 都 是 可 以 看 成 是 追加 写 的 形式 了 ， 所 以 这 里 如 果 想 
实现 一 边 写 人 一 边 修 复 就 很 难 了 。 

但 是 并 不 是 完全 不 会 一 边 写 人 一 边 修 复 的 ， 有 一 种 情况 是 
可 以 实现 的 : 对 数据 进行 分 片 。 例 如 一 个 GB 级 别 的 文件 ， 以 
100MB 拆 分 数据 分 片 ， 那 么 这 时 候 可 能 是 前 面 的 分 睫 有 腊 的 ， 
但 是 并 不 影响 后 面 的 数据 分 片 ， 这 种 情况 下 ， 每 个 文件 分 片 其 
实 可 以 看 成 是 一 个 独立 的 小 文件 ,那么 就 可 以 实现 一 边 修复 一 
边 写 人 了 。 

如 果 想 要 在 文件 追加 写 的 时 候 实现 并 发 ， 这 里 有 多 种 不 同 
的 做 法 ， 一 种 方案 是 客户 端 先 独占 该 文件 ， 在 写 人 的 时 候 通过 
客户 端 来 自行 控制 解决 冲突 问题 ， 也 就 是 每 次 写 和 信 ， 不 会 有 重 
全 区 域 的 追加 写 出 现 ， 以 此 来 规避 和 解决 训 突 问题 。 


1.10 文件 打开 和 关闭 


一 个 文件 从 创建 到 删除 过 程 中 ， 可 能 会 有 反 反 复 复 地 打开 
与 关闭 的 过 程 ， 本 小 节 就 一 起 来 了 解 一 下 文件 打开 和 关闭 中 需 
要 注意 的 内 容 。 


1.10.1 文件 打开 


首先 需要 思考 一 个 问题 ， 文 件 打开 ， 到 底 打 开 之 后 得 到 什 
么 内 容 ” 如 果 使 用 man open 命令 进行 查看 ，open 命令 返回 的 是 
一 个 文件 句柄 ， 这 里 可 以 使 用 lsof 命令 来 查看 具体 的 情况 ， 下 
面 来 简单 展示 一 下 。 
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1._ # stat /tmp/1L.tXxt 


筷 。 File: /tmp/1.txt 

3 Size: 6 Blocks: 6 IO Block: 4696 IF 
egular empty file 

4. Device: fcelh/64513d Inode: 3219 Links: 1 

5 ”Access: (8644/-rw-r--r--) Uid: (6/ root)  Gid: ( 8/ root) 

6._ Access: 26023-63-22 26:36:22.887597598 +6866 

7. Modify: 2623-63-22 26:36:22.887597596 +6866 

8. Change: 2623-63-22 26:36:22.8875975968 +6866 

9. Birth: - 

10. 


11. # tail -f /tmp/1.txt 


代码 1-17 


首先 创建 一 个 文件 Ltxt， 接 着 使 用 tail -f 命令 来 一 直 打 开 该 
文件 ， 同 时 在 另外 一 个 终端 使 用 ps 命令 得 到 其 pid 并 且 使 用 lsof 
命令 来 查看 ， 如 下 所 示 。 


# ps _uax |grep 1.txt 
root 46394 6.6 6.6 7264 5889 pts/2 S+ 20: 如 6:69tail -f /bnp/1bk 


# 1sof |grep 46394 
tail 46394 root ”3 REG 六 2, 寺 9 3219 /bmp/1.bd 


代码 1-18 


这 里 就 是 一 个 比较 简单 的 打开 文件 的 情况 ， 通 过 上 面 可 以 
看 到 lsof 中 展示 该 文件 是 REG， 也 就 是 文件 类 型 ， 同 时 3r 表示 
只 读 。 

实际 除了 以 上 内 容 ， 一 个 文件 被 打开 的 时 候 ， 还 需要 考虑 
什么 呢 ? 其 中 一 点 就 是 该 文件 是 否 有 异常 数据 需要 进行 修复 。 
因为 在 z 中 有 存储 池 的 设计 ， 数 据 可 能 会 保存 在 多 个 不 同 的 磁 
盘 中 进行 备份 ， 因 此 一 且 遇 到 文件 异常 了 ， 就 要 触发 修复 流程 。 
而 在 分 布 式 系统 中 ,文件 是 否 触发 修复 ， 一 般 通 过 文件 元 数据 
中 心 保存 的 信息 来 判断 ， 而 glusterfs 则 是 通过 文件 的 扩展 属性 来 
进行 判断 ， 该 操作 被 称 为 AFR。 
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文件 的 打开 还 需要 留意 一 个 细节 ， 如 果 文 件数 据 很 多 ， 例 
如 大 小 达到 了 上 百 吉 字 节 ， 这 时 候 的 文件 结构 通常 是 树 形 结构 
的 ， 同 时 部 分 文件 系统 采用 extend 结构 ， 会 有 非常 多 的 数据 
元 信息 需要 加 载 ， 因 此 在 首次 打开 文件 的 时 候 ， 是 一 次 性 加 载 
还 是 部 分 加 载 则 是 一 个 需要 思考 的 问题 。 如 果 一 次 性 加 载 大 量 
的 数据 信息 ， 那 么 必然 会 导致 文件 打开 所 需 时 间 很 长 ， 因 此 在 
ext4 等 文件 系统 中 ， 会 对 文件 extend 信息 加 载 有 一 些 限 制 和 优 
化 ， 具 体 可 以 见 源 码 范 数 ext4_find_extend 的 细节 。 


1.10.2 文件 关闭 


相对 于 文件 打开 操作 ， 文 件 的 关闭 则 比较 复杂 一 些 ， 因 为 
在 正常 情况 下 ,文件 打开 都 是 在 系统 正常 情况 下 进行 的 ， 如 果 
系统 异常 ， 那 么 文件 打开 失败 也 不 会 影响 文件 的 数据 。 但 是 文 
件 的 关闭 ， 往 往 情 况 比 较 复 杂 ， 包 括 文件 正常 关闭 、 异 常 关 闭 
等 情况 。 其 中 文件 正常 关闭 的 时 候 ， 还 要 考虑 文件 中 是 否 有 已 
经 写 人 缓存 的 脏 数 据 ， 如 果 有 及 数据 ， 必 须 先 等 待 脏 数 据 持 入 
化 到 磁盘 中 才能 真正 关闭 ， 否 则 会 存在 丢失 数据 的 情况 。 因 此 
一 旦 文件 发 起 关闭 操作 ， 可 能 并 不 会 立刻 关闭 ， 有 可 能 会 在 系 
统 有 异步 操作 中 进行 。 

同时 文件 正常 关闭 往往 也 会 分 为 客户 端 主动 触发 关闭 和 被 
动 关闭 两 种 情况 ， 其 中 主动 关闭 通常 是 客户 端 在 写 人 数据 并 且 
刷新 数据 之 后 ， 保 证 数据 已 经 持久 化 到 磁盘 后 调用 关闭 操作 。 
而 被 动 关闭 ， 则 是 客户 端 由 于 网 络 等 原因 ， 导 致 客户 端 与 服务 
端 之 间 连 接 中 断 ， 但 是 文件 之 前 一 直 处 于 被 打开 的 状态 ， 为 了 
不 让 文件 长 时 间 没 有 操作 占用 缓存 空间 ， 因 此 通常 情况 下 ， 服 
务 端 节点 会 根据 时 间 判 断 ， 在 一 定时 间 周 期 后 ， 若 文件 没有 接 
受到 任何 用 户 请 求 ， 那 么 会 触发 被 动 关闭 操作 。 该 操作 其 实 和 
缓存 数据 周期 性 持久 化 类 似 ， 不 管 文件 的 引用 基数 如 何 ， 因 长 
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时 间 没 有 操作 ， 则 认为 该 文件 可 以 关闭 ， 但 是 关闭 之 前 也 需要 
先 把 缓存 中 文件 的 修改 数据 持久 化 到 磁盘 中 ， 保 证 数据 安全 。 


1.11 文件 属性 信息 


每 个 文件 除了 数据 ， 还 会 包含 非常 多 的 属性 信息 ， 其 中 属 
性 信息 还 分 为 文件 元 数据 信息 和 扩展 属性 ， 前 者 是 每 个 文件 包 
括 目录 (目录 可 以 被 认为 是 一 种 特别 的 文件 类 型 ) 等 创建 之 后 
都 会 包含 的 ， 而 扩展 属性 则 是 在 一 些 场景 下 ， 用 户 通 过 命令 进 
行 创 建 的 。 下 面 来 了 解 一 下 关于 文件 属性 信息 的 相关 内 容 。 


1.11.1 问题 一 : 文件 的 三 个 时 间 什 么 时 候 会 改变 


每 个 文件 在 创建 之 后 ， 使 用 stat 命令 都 会 显示 三 个 时 间 ， 分 
别 是 access 、change 和 modify， 那 么 这 三 个 时 间 都 会 在 什么 情况 
下 进行 改变 呢 ? 下 面 做 一 个 简单 的 小 实验 来 了 解 一 下 。 


1 直 帮 ouch /tmp/a.txt 

2 

3 #_ Stat /tmp/a.txt 

4. File: /tmp/a.txt 

3 Sizey 6 Blocks: 6 IO _Block: 46596 “regular empty file 
6 Device: fcelh/64513d Inode: 3776 Links: 1 

7. Access: (86644/-rw-r--r--) Uid: ( B/ root)  Gid: ( B/ root) 
8 Access: 2623-603-25 13:46:49.716174458 +6866 


9. Modify: 2623-63-25 13:46:49.716174458 +6866 
10. Change: 2623-63-25 13:46:49.716174458 +6866 
| 寺 1BiPEhe = 


13.，# date >> /tmp/a.txt 


041 


深入 理解 文件 系统 原理 和 实践 


15.# Stat /tmp/a.txt 


106. File: /tmp/a.txt 


17. Size: 29 Blocks: 8 IO_Block: 4696 regular file 


18. Device: fcelh/64513d Inode: 3776 Links: 1 


19.，Access: (86644/-rw-r--r--) Uid: ( @/ root)  Gid: ( @/ root) 
20.Access: 2623-63-25 13:46:49.716174458 +6866 


21.，Modify: 2623-63-25 13:47:61.656513512 +6866 


22.，Change: 2623-63-25 13:47:61.656513512 +6866 
23. _ Birth: - 


代码 1-19 


上 面 的 操作 是 先 创建 文件 ， 再 追加 了 一 条 信息 ， 接 着 查看 
文件 属性 信息 ， 可 以 发 现 三 个 时 间 中 ，modify 和 change 两 个 时 
间 发 生 改 变 了 ， 只 有 access 时 间 并 没有 改变 。 接 着 我 们 再 继续 
做 一 个 实验 。 


外 # Cat /tmp/a.txt 

2. _ Sat Mar 25 13:47:61 CST 2623 

4. # stat /tmp/a.txt 

3 File: /tmp/a.txt 

6 Size: 29 Blocks: 8 IO_Block: 4696 “regular file 
7 Device: fcolh/64513d Inode: 3776 Links: 1 

8._ Access: (6644/-rw-r--r--) Uid: ( 6/ root)， Gid: ( 6/ root) 


9. Access: 26023-63-25 13:47:18.759642355 +6866 


10.，Modify: 2623-63-25 13:47:61.656513512 +6866 
11. Change: 2623-63-25 13:47:61.656513512 +6866 
12.__Birth: - 


代码 1-20 


从 这 里 可 以 看 到 ， 打 开 查看 文件 之 后 就 会 改变 access 的 时 
间 了 ， 对 于 大 部 分 存储 系统 来 说 ， 读 多 写 少 的 场景 下 ， 如 果 频 
繁 修改 access 时 间 ， 那 么 会 造成 不 可 忽略 的 性 能 损耗 ， 因 此 为 
了 优化 该 问题 ， 在 nfs 和 xz 中 ， 都 可 以 通过 参数 来 关闭 access 
时 间 的 频繁 更 新 。 例 如 在 nfs 中 ， 可 以 通过 -o noatime 选项 来 进 
行 优 化 。 除 了 这 个 参数 ，mount 的 时 候 还 有 一 个 nodiratime 也 是 
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可 选 的 。 
1.11.2 问题 二 : 文件 创建 和 修改 时 ,上 层 目录 的 属性 信息 都 会 改 


变 吗 


有 了 对 前 面 问题 的 了 解 之 后 ， 接 下 来 我 们 再 来 延伸 一 下 ， 
如 果 该 文件 在 一 个 目录 层级 相对 较 多 的 情况 下 ， 那 么 当 文 件 被 
修改 之 后 ， 会 更 新 其 父 目 录 的 信息 吗 ? 会 更 新 其 父 目 录 之 上 的 
所 有 上 级 目录 信息 吗 ” 会 不 会 一 直 更 新 到 根 目 录 呢 ? 对 于 这 个 
问题 的 解答 ， 我 们 还 是 可 以 以 一 些 简单 的 小 实验 来 验证 一 下 。 
这 次 的 实验 可 以 和 匈 创 建 多 个 目录 ， 接 着 和 驳 使 用 stat 查看 每 个 目 
录 的 信息 ， 再 在 最 底层 目录 下 创建 文件 和 写 人 数据 ， 再 次 使 用 
stat 查看 目录 的 信息 对 其 进行 对 比 ， 这 样 就 可 以 得 到 答案 了 。 因 
此 关于 该 问题 的 答案 ， 留 待 各 位 自行 实验 后 得 到 。 


1.11.3 问题 三 : 文件 属性 信息 异常 是 如 何 修复 的 


关于 该 问题 ， 我 们 先 来 查看 一 些 场景 ， 再 结合 该 问题 进行 
思考 。 目 前 都 是 在 三 副本 的 场景 下 进行 的 。 假 设 三 副本 的 节点 
或 者 磁盘 分 别 用 a，b，e 来 进行 表示 。 

放 场景 一 : 数据 重复 完整 写 入 异常 

该 场景 构造 步 又 如 下 所 示 。 

(1 ) 带 有 数据 的 文件 写 人 三 节点 中 。 


(2 ) 关闭 节点 ec 后 ， 删 除 文件 。 
(3 ) 再 次 重复 写 人 文件。 
(4) 重 局 节点 es 


放 场景 二 : 空 文件 扩展 属性 不 一 臻 

对 于 该 场景 的 构建 与 上 面 场景 类 似 ， 但 是 需要 创建 一 个 空 
文件 ， 同 时 在 节点 关闭 后 ， 通 过 setfattr 来 增添 一 条 文件 的 扩 
展 属性 。 该 场景 还 可 以 通过 先 创 建 空 文件 ， 在 节点 关闭 后 ， 对 
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其 他 两 个 节点 的 空 文件 进行 写 人 数据 ， 再 删除 清空 数据 来 构建 
场景 。 

通过 这 两 个 小 的 场景 ， 我 们 可 以 发 现 ,文件 的 数据 是 一 致 
的 ， 如 果 按 照 直觉 理解 ， 可 能 会 认为 文件 并 没有 有 异常， 但 是 存 
在 文件 的 属性 信息 不 一 致 ， 那 么 这 时 候 修 复 该 如 何 进行 呢 ? 其 
实 文件 的 属性 信息 也 可 以 认为 是 一 种 数据 ， 按 照 文 件 的 数据 形 
式 ， 通 常 以 多 数 一 致 原则 来 修复 即 可 。 但 是 通常 存在 一 个 容易 
忽略 的 点 ， 如 果 在 自 研 的 存储 系统 中 ， 要 考虑 这 些 空 文件 的 属 
性 异常 场景 ， 可 以 通过 添加 单元 测试 的 方式 来 保证 系统 的 稳 
健 性 。 
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2、 深 入 理解 zf 


2.1 zfs 存储 池 设 计 


zfs 虽然 是 很 有 名 的 一 个 文件 系统 ， 但 是 除了 xs，linux 系统 
中 最 常见 的 默认 文件 系统 应 该 是 ex4， 还 有 btrfs 和 xfs 也 是 主流 
的 文件 系统 ,那么 已 经 有 了 这 些 文件 系统 之 后 ， 为 什么 还 要 去 
关注 和 设计 一 款 新 的 文件 系统 ， 为 了 理解 这 个 问题 ， 还 需要 了 
解 一 下 xz 当初 诞生 的 背景 。 

zfs 最 早 在 2001 年 就 开始 设计 了 ， 是 sun 公司 存储 团队 的 负 
责 人 Je 入 带领 团队 设计 并 研发 的 ， 后 被 oracle 收购 ， 并 且 z 难 有 
一 个 开源 的 版 本 叫 openzs， 后 面 如 无 特殊 说 明 ，zxfs 都 是 默认 指 
代 openzfs。 而 难受 欢迎 的 原因 之 一 ， 是 鸡 被 称 为 最 后 一 代 文 
件 系统 ， 其 设计 之 初 就 考虑 了 在 软件 层面 实现 磁盘 元 余 (以 前 
通常 使 用 RAID 硬件 卡 来 实现 ， 但 是 有 额外 的 物理 硬件 成 本 ， 并 
且 人 硬件 还 会 受到 厂商 和 硬件 兼容 限制 等 )， 因 此 直到 现在 ， 很 多 
中 小 公司 在 考虑 单机 多 磁盘 层面 实现 存储 数据 宛 余 层面 的 话 ， 
zs 都 是 一 个 非常 好 的 选择 。 而 且 难 在 磁盘 管理 方式 的 实现 方面 
很 友好 ， 操 作 性 也 非常 简便 。 

另外 在 难 的 设计 中 ， 还 有 非常 多 有 趣 且 独特 的 设计 ， 并 且 
这 些 设计 内 容 也 影响 至 今 ， 如 空间 碎片 化 优化 、 重 复数 据 删 除 
等 技术 ， 早 期 的 文件 系统 实现 中 ， 很 少 有 考虑 这 些 技术 的 ， 而 
zfs 在 2009 年 前 后 就 考虑 到 了 ， 关 于 这 些 技术 的 内 容 ， 后 面 也 会 
有 内 容 专 门 提 到 。 
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在 xz 的 设计 中 ， 早 期 就 把 寻 址 空间 的 位 数 设置 为 128 位 ， 
这 样 就 意味 着 z 可 以 支持 的 存储 容量 上 限 是 非常 高 的 〈 目前 暂 
时 没有 能 达到 容量 上 限 瓶 颈 )， 文 持 ZB 级 别 的 存储 容量 空间 。 

现 如 今 ，zf8 很 可 惜 的 是 没有 办 法 并 和 linux 的 分 文 代码 中 ， 
一 大 原因 是 早期 的 开源 协议 问题 。 不 过 如 果 想 要 使 用 zs， 目 前 
ubuntu 操作 系统 在 安装 的 时 候 也 都 可 选 文 持 了 。 

另外 ,，z 的 操作 文档 一 般 是 英文 的 ，oracle 官方 有 一 些 
oracle zf 的 文档 ， 各 位 在 学 习 和 了 解 难 的 过 程 中 可 以 参考 官方 
文档 ， 乌 或 者 自行 搜索 Oracle ZFS Administration Guide 相关 内 容 
进行 学 习 。 


儿 2--1 

zfs 一 个 强大 的 功能 就 是 storage pool 概念 ， 也 就 是 存储 池 ， 
这 个 功能 可 以 实现 软 raid 功能 ， 而 在 传统 的 磁盘 管理 下 ， 磁 盘 
分 区 管理 如 图 2-1 所 示 ， 这 里 每 个 磁盘 上 面 单独 有 一 个 卷 管理 ， 
格式 化 后 交 给 文件 系统 使 用 ，zfg 的 设计 则 有 些 不 同 ， 见 图 2-2 
所 示 。 
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全 2 一 2 

相 比 起 传统 的 磁盘 管理 方式 ， 文 件 空间 的 使 用 管理 也 是 一 
种 非常 麻烦 的 方式 ， 因 为 可 能 有 些 磁 盘 已 经 使 用 很 多 内 存 了 ， 
但 是 其 中 一 些 使 用 很 少 的 内 存 ， 导 致 出 现 数据 倾斜 的 问题 ， 甚 
至 会 导致 其 中 一 个 磁盘 分 区 爆 掉 引发 数据 丢失 的 风险 ， 等 等 ， 
而 zf 的 磁盘 存储 池 管理 方式 ， 则 可 以 把 底层 所 有 的 磁盘 看 作 是 
一 个 很 大 的 池子 ， 用 户 不 需要 关心 底层 的 分 配 逻 辑 ， 而 数据 在 
写 和 人 的 时 候 就 可 以 自动 均衡 地 分 配 在 不 同 的 磁盘 上 (当然 这 也 
取决 于 用 户 设计 的 磁盘 元 余 程度 ， 也 就 是 raidz 级 别 )。 

这 里 需要 说 明 一 下 ， 可 能 会 有 人 把 xz 的 存储 池 设 计 与 
Linux 的 lvm 设计 和 弄 混 ， 这 二 者 其 实 是 有 很 大 区 别 的 ， 因 为 鸡 
的 存储 池 设 计 是 由 朴 文 件 系统 来 管理 的 ， 而 lvm 是 由 Linux 
device-mapper 提供 的 。 同 时 Lvm 中 使 用 的 卷 组 概念 ， 看 起 来 和 
zf 很 相似 ， 但 是 实际 上 ， 在 文件 系统 写 人 数据 的 时 候 ， 并 没有 
办 法 真正 知道 数据 存储 在 哪个 磁盘 上 ， 因 此 一 般 文 件 系统 是 建 
立 在 linux 已 经 创建 好 的 lvwm 的 卷 组 上 的 。 而 xz 是 可 以 自 行 控 
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制 的 ， 这 二 者 有 着 本 质 区 别 。 另 外 Lvm 需要 在 安装 的 时 候 就 指 
定好 ， 否 则 后 续 更 改 是 非常 麻烦 的 ， 而 芍 的 存储 池 管 理 ， 在 磁 
盘 上 下 线 的 要 求 中 ， 没 有 lvm 那么 复杂 和 和 繁琐。 另外 xz 还 支持 
hot spare， 也 就 是 热 备 盘 ， 一 般 存 储 池 的 某 个 磁盘 有 问题 ， 可 以 
替换 并 转移 数据 。 

在 提 到 raidz 之 前 , 需要 先 说 明 一 下 raid 的 几 个 级 别 的 区 别 的 ， 
方便 后 续 做 对 比 。 通 常 使 用 比较 多 的 是 raid0，1，5 和 6。 

raids 和 6 的 区 别 就 是 ，raid 5 只 是 对 数据 做 校 验 ， 得 到 一 
个 校 验 带 数据 ， 而 raid 6 则 是 两 个 ， 因 此 raid 5 级 别 只 允许 损坏 
一 个 磁盘 ，raid 6 则 是 两 个 。 而 raid 0 则 没有 完 余 ， 只 是 单纯 地 
将 数据 条 带 化 ， 也 就 是 对 数据 按照 一 定 大 小 平均 切 分 ， 再 分 别 
存放 在 不 同 的 磁盘 上 ， 可 以 通过 多 磁盘 的 I0 来 增加 性 能 ， 但 是 
没 法 在 单 节点 层面 保障 数据 的 安全 性 。( 这 里 提 到 注 明 单 节 点 ， 
那么 肯定 在 多 节点 上 ， 分 布 式 环境 下 是 可 以 保证 的 ， 关 于 这 个 
话题 后 续 也 会 详细 讲解 一 下 ， 其 涉及 从 软件 到 硬件 层面 的 一 个 
数据 宛 余 保障 级 别 问 题 )。raid 1 则 是 做 镜像 ， 把 两 块 磁盘 类 似 
主 从 那样 做 镜像 。 


丰 add-apt-repository ppa:Jjonathonf/zfs 
# apt instal1 zfsutils-]Jinux zfs-dkms 


# zfs --version 
zfs-2.1.5-1~26.64.york6 
zfs-kmod-6.8.3-1ubuntu12.13 


代码 2-1 


局 | 外 | 华山 限 攻 


本 机 是 使 用 ubuntu20 来 进行 测试 的 ， 如 果 直 接 安装 zfsutils- 
linux 的 版 本 则 是 非常 低 的 旧版 本 ， 因 此 需要 添加 ppa 获取 最 者 
版 本 来 安装 。 对 于 后 续 提 到 的 zx 的 版 本 ， 如 果 没 有 特殊 说 明 ， 
默认 都 是 使 用 2.X 版 本 进行 。 
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裤 
也 


使 用 raids 需要 三 块 磁盘 ，raid6 是 四 块 磁 盘 。xf 中 的 raidz 
也 是 类 似 raid 级 别 的 ， 其 中 raidz 则 是 和 raid5 类 似 ，raidz2 则 是 
和 raid6 类 似 ， 而 raidz3 则 是 允许 最 多 三 块 磁盘 损坏 。 


1._ <“ sudo 1Lsblk 
2.__ sdb 8:16 0 5G 6 disk 
3._ sdc 8:32 0 6G 6 disk 
4. sdd 8:48 0 8G 6 disk 
5._ sde 8:64 0 7G 6 disk 
6._ sdf 8:86 0 9G 6 disk 
7. sdg 8:96 6 16G 6 disk 
代码 2-2 


这 里 是 使 用 虚拟 机 创建 了 六 块 大 小 不 同 的 磁盘 ， 再 使 用 
zpool 命令 来 创建 存储 池 。 


1] 促 sudo zpool create hilton_raidz2 raidz2 sdb sdc sdd sde sdf spare sdg -于 
2 “$ sudo zpool status 

3 pool: _ hilton_raidz2 

4 State: _ ONLINE 

5._ config: 
6. 
7 
8 


NAME STATE READ WRITE _CKSUM 
hilton_raidz2 ONLINE 6 6 6 
9. raidz2-6 ONLINE 6 6 6 
10. sdb ONLINE 6 6 6 
[下 sdc ONLINE 6 6 6 
12. sdd ONLINE 6 6 6 
他. sde ONLINE 6 6 6 
14. sdf ONLINE 6 6 6 
15. spares 
16. sdg AVAIL 

代码 2-3 
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这 里 注意 ， 生 产 环境 不 建议 使 用 /devsdx 这 样 的 路 径 来 创建 
zpool， 防 止 因为 磁盘 盘 符 漂移 到 最 后 节点 重启 后 出 现 问题 。 盘 
符 床 移 就 是 如 原来 sda 的 盘 符 变 成 了 sde。 这 里 如 果 想 要 演示 磁 
盘 蔡 换 ， 则 可 以 印 载 其 中 一 块 正在 使 用 的 磁盘 即 可 。 生 产 环境 
可 以 使 用 uuid 或 者 对 磁盘 打 标 签 的 方式 来 进行 操作 。 

通过 这 样 一 个 简单 的 命令 ， 也 可 以 看 出 难 的 存储 池 管 理 比 
lvm 简单 很 多 ， 因 为 lym 中 复杂 的 ve 和 Tv 等 概念 ， 还 有 各 种 复 
杂 的 参数 ， 对 于 大 部 分 人 来 说 都 不 是 容易 操作 的 ， 而 且 非 常 容 
易 出 错 。 


儿 2-3 

前 面具 是 从 特性 和 使 用 方面 来 描述 zk 的 存储 池 设 计 ， 那 么 
在 其 内 部 设计 是 如 何 实现 的 呢 ? 这 里 可 以 参考 图 2-3 所 示 。zf 
的 存储 池 是 由 虚拟 设备 组 成 的 ， 这 里 有 两 种 类 型 的 虚拟 设备 ， 
分 别 是 物理 虚拟 设备 和 轩 辑 虚拟 设备 。 一 个 物理 虚拟 设备 ， 是 
一 个 可 写 人 的 磁盘 或 者 块 设 备 等 ， 而 一 个 逻辑 虚拟 设备 则 是 管 
理 和 抽象 物理 虚拟 设备 的 ， 也 就 是 图 2-3 中 的 MI 和 M2。 

如 果 这 里 是 一 个 mirror pool 的 话 ， 写 和 人 数据 的 时 候 ， 逻 辑 虚 
拟 设 备 就 会 把 写 人 请 求 分 发 到 其 所 有 的 子 设 备 ， 但 是 读 取 的 时 
候 ， 只 需要 读 取 其 中 一 个 设备 即 可 。 那 么 这 里 如 果 是 条 带 方式 
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进行 管理 的 话 ， 写 入 的 时 候 也 可 以 增加 磁盘 的 写 入 带宽 ， 因 为 
会 把 数据 分 片 写 人 不 同 的 磁盘 当中 (当然 这 里 不 是 简单 的 分 片 ， 
像 raid5 那样 的 ， 这 里 的 内 容 是 另外 一 方面 的 ， 主 要 会 涉及 一 些 
数学 方面 的 内 容 ， 后 续 再 介绍 )。 另 外 这 里 还 有 一 个 叫 top-level 
vdevs 的 概念 ， 也 就 是 root vdevs 下 的 间接 vdev， 这 里 top-level 
vedevs 的 意思 ， 可 以 理解 为 几 个 磁盘 组 成 的 一 个 池子 ， 也 就 是 
不 同 的 zpool 的 内 容 ， 如 图 2-3 中 sdd 和 sde 组 成 的 一 个 镜像 组 。 

对 于 底层 不 同 磁盘 组 成 的 存储 池 ， 这 里 早期 zfks 还 有 一 个 独 
特 设计 (这 里 可 以 参考 ZFS On-Disk Specification 这 篇 资料 )， 叫 
作 vdev labels。 这 里 的 “v” 是 指 virtual 的 意思 ， 对 应 的 就 是 网 
2-3 中 的 M]1 及 其 物理 磁盘 , 都 需要 记录 一 下 该 存储 池 中 的 信息 。 


L0 工 | 1L2 1L3 


全 2 一 人 

对 于 存储 池 的 每 份 信 息 ， 这 里 会 保存 四 份 ， 分 别 为 
LO0~L3， 而 且 在 头 尾 各 保存 两 份 。 当 需要 修改 的 时 候 ， 先 修改 
一 头 一 尾 的 两 份 数据 ， 如 果 中 间 出 现 问题 了 ， 那 么 可 以 通过 另 
外 两 份 来 回 滚 数据 ， 而 直到 四 份 数据 都 更 新 完成 才 算 结束 ， 
为 这 里 保存 的 信息 关系 到 整个 存储 池 的 核心 元 信息 ， 因 此 通过 
这 样 的 方式 可 以 保证 数据 更 新 安全 。 

那么 每 一 份 标签 中 记录 的 内 容 有 什么 呢 ? 其 中 包括 当前 该 
存储 池 的 拓扑 结构 信息 、 存 储 池 的 名 称 ， 还 有 和 事务 相关 的 信 
息 等 。vdev label 的 信息 被 分 成 了 四 部 分 : 8K 的 空闲 空间 (Blank 
Space )，8K 的 boot header 信息 ，112K 的 name-value 键 值 对 以 
及 128 长 度 的 1IK 大 小 的 uberblock 结构 数组 。 其 中 uberblock 是 
访问 这 个 存储 池 的 入 口 。uberblock 是 访问 pool 中 数据 的 和 人 口 。 
任意 时 刻 ， 只 有 一 个 uberblock 处 于 激活 状态 ， 所 有 uberblock 中 
事务 组 编号 最 高 且 通 过 SHA-256 checksum 验证 合法 的 uberblock 
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为 激活 的 uberblock。 

下 面 看 一 下 xf 中 uberblock 和 object set 的 关系 示意 图 ， 如 
图 2-$ 所 示 ， 在 xz 中 object set 和 Linux 中 的 一 切 文 件 思想 都 是 
相似 的 。 每 个 模块 都 可 以 看 成 不 同 的 对 象 (object )， 而 objset 就 
是 对 象 集合 。 


Meta-Object 
Set layer 
deadlist snapshot | zvol | space map | 
Object Set layer object set 二 
2 
d 秆 | symlink | 1B 
user data 一 一 一 > data 本 data 


图 2-5 

图 2-5 中 的 Meta-Object， 简 称 MOS。snapshot 就 是 快照 ， 
而 当 快 照 被 删除 时 ， 其 中 的 数据 则 与 deaqdlist 有 关 ， 记 录 一 些 要 
被 删除 的 数据 信息 。 

zvol 全 称 是 zx volume, 是 难 癌 外 提供 与 块 设备 相关 的 模块 ， 
如 果 想 创建 一 个 块 设备 给 其 他 服务 使 用 ， 可 以 使 用 礁 create 命 
令 进 行 创建 ， 然 后 该 块 设备 可 以 被 isici 格式 化 与 挂 载 ， 对 接 Kk8s 
的 pve 进行 数据 存储 。 

space map 是 礁 的 空间 管理 模块 metaslab 中 的 日 志 信 息 ， 
关于 该 内 容 后 面 小 节 会 详细 讲解 。 
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2.2 zfs 层次 结构 


前 面 提 到 过 Linux 的 文件 系统 层次 ， 但 是 那个 对 于 文件 系统 
内 部 结构 只 是 一 个 简单 的 图 示 表 示 ， 对 于 文件 系统 内 部 的 模块 
并 没有 深入 分 析 过 ， 而 且 日 常 中 很 多 非 底 层 研 发 的 朋友 ， 可 能 
对 于 文件 系统 来 说 ， 如 extd 和 xf 这 些 ， 都 会 觉得 差不多 ， 或 者 
会 对 研究 文件 系统 内 部 模块 感到 困惑 。 对 于 这 些 问题 ， 笔 者 觉 
得 ， 有 机 会 的 话 ， 深 入 以 后 再 回头 看 ， 会 有 更 深 的 体会 ， 若 将 
文件 系统 和 其 他 领域 结合 起 来 ， 未 来 大 有 可 为 。 

不 管 怎 样 ， 我 们 需要 找 一 个 常用 的 流行 的 文件 系统 来 这 入 
理解 和 学 习 一 下 ， 而 难 则 是 一 个 非常 好 的 选择 ， 作 为 号 称 最 后 
一 代 的 文件 系统 ,我们 接 下 来 会 深入 研究 一 些 模块 及 其 原理 。 


用 户 态 
应 用 程序 

二 熙 EL 

VFS zfs 
页 面 缓存 | 文件 系统 | C-> DMU 

内 核 态 
| IO(Block) SPA 
驱动 


机 械 盘 SSD 硬件 层 


和 2 一 6 

图 2-6 右 侧 部 分 就 是 xz 的 简单 架 构 示 意图 ， 从 下 到 上 ， 这 
里 spa 全 称 为 storage pool allocator， 也 就 是 存储 池 分 配 回 ， 从 名 
称 中 就 可 以 看 出 ，spa 就 是 对 应 最 底层 的 磁盘 空间 申请 和 分 配 
的 。SPA 处 理 块 分 配 和 IO， 并 且 对 接 上 一 层 的 DMU。 
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这 里 spa 既然 是 负责 底层 存储 池 分 配 的 ,那么 可 想 而 知 ， 对 
于 多 个 磁盘 组 成 的 存储 池 ， 写 人 磁盘 的 时 候 需要 考虑 哪些 内 容 
呢 ? 还 有 一 旦 某 个 磁盘 发 生 错 误 了 ， 热 备 盘 数据 的 迁移 等 功能 ， 
都 应 该 由 spa 来 具体 负责 吗 ? 


2.2.1DMU 


DMU 全 称 为 Data Manage Unit， 叫 作 数 据 管理 单元 ，DMU 
将 虚拟 地 址 转换 为 从 SPA 到 事务 对 象 的 ZFS POSIX 层 (ZPL ) 
的 接口 ， 最 后 ，ZPL 在 DMU 对 象 之 上 实现 POSIX 文件 系统 ， 并 
将 文件 的 操作 反馈 到 系统 调用 层 。 简 单 来 说 ， 当 数据 从 应 用 中 
写 人 时 ， 经 过 VFS 然后 到 达 DMU 的 时 候 ， 需 要 对 数据 做 事务 性 
处 理 ， 例 如 为 了 保障 数据 的 安全 ， 目 前 业务 写 人 的 数据 通 篆 采 
用 copy-on-warite 方式 进行 处 理 ， 还 有 写 入 的 数据 要 进行 校 验 码 
计算 等 功能 ， 这 些 也 是 在 DMU 中 进行 的 。 同 时 如 果 系 统 中 的 文 
件数 据 开 启 了 快照 等 功能 ， 那 么 这 些 事务 的 处 理 是 放 在 了 DMU 
中 进行 的 ， 而 spa 则 是 把 数据 从 磁盘 中 该 取出 来 ， 并 且 写 入 磁盘 

同时 不 管 是 读 写 请 求 ， 如 果 这 里 有 压缩 或 者 加 密 的 需要 ， 
其 处 理 的 流程 也 是 在 DMU 中 处 理 。 而 读 取 数据 的 时 候 ，DMU 
会 封装 zio 请 求 ， 先 从 缓存 中 获取 ， 如 果 无 法 获取 到 ， 则 从 磁盘 
中 加 载 ， 也 就 是 封装 成 bio 发 送 到 内 核 中 。 关 于 读 请 求 的 过 程 ， 
会 在 后 面 讲解 。 


2.2.2 ZPL 

ZPL 全 称 为 zfs posix layer， 既 然 是 和 posix 有 关 的 ， 那 么 显 
而 易 见 这 里 就 是 对 posix 系统 调用 接口 的 实现 ， 因 为 前 面 提 到 每 
个 文件 系统 都 可 以 实现 FOP， 也 就 是 file opertation ， 对 于 一 些 文 
件 的 系统 调用 接口 ， 都 是 交 给 注册 的 文件 系统 来 实现 的 ， 因 此 
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ZPL 就 是 在 做 这 个 事情 。 

当然 对 于 这 三 个 层次 ， 并 不 是 鸡 的 全 部 层次 结构 ， 只 是 这 
个 结构 是 早期 z 维 实现 的 时 候 ， 最 驳 考 虑 的 。 而 像 缓存 L2ARC 
的 内 容 实 现 ， 则 是 比较 靠 后 的 事情 了 ， 包 括 使 用 ssd 作为 日 志 的 
高 速 缓存 等 功能 实现 ， 也 是 后 面 才 考 虑 的 。 

下 面 来 看 一 个 更 加 详细 的 zt 层次 子 模块 图 , 如 图 2-7 所 示 。 


Filesystem API NFS/Samba API (libshare) Block device API 


Ce - NEFS/CIFS vop_rwlock Co > 


ZFS Management API (libzfs) 


physical storage devices | 


呈 2-7 zfs 层次 子 模块 图 呈 

对 于 鹤 来 说 ， 对 外 是 提供 了 zpl 和 zvol 的 ， 分 别 是 文件 和 
块 设备 的 实现 ， 而 zvol 则 可 以 创建 一 个 块 设备 ， 在 生产 环境 中 
使 用 iscsi 进行 格式 化 ， 接 着 挂 载 到 k8s 中 给 pve 进行 使 用 。 

ZAP (zf attribute processor ) 则 是 与 属性 相关 的 内 容 ， 文 件 
中 除了 数据 ， 还 有 一 些 固定 的 元 数据 信息 和 扩展 属性 ， 这 些 内 
容 都 是 需要 存储 的 ， 关 于 这 部 分 内 容 在 后 面 小 节 会 详细 讲解 。 
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深入 理解 文件 系统 原理 和 实践 


Spa 中 有 slog 和 L2ARC 这 些 ， 都 是 与 缓存 相关 的 ， 这 些 内 容 也 
会 在 后 面 进行 讲解 。DSL ( Dataset and Snapshot layer )， 根 据 名 称 
可 以 知道 ， 这 里 就 是 与 数据 快照 有 关 的 内 容 。 


2.3 zfs 指针 结构 和 文件 结构 


数据 以 块 为 单位 在 磁盘 和 内 存 之 间 传 输 。 块 指针 (blkptr t ) 
是 一 个 128 字 节 的 xz 结构 ， 用 于 物理 定位 、 验 证 和 描述 块 磁盘 
上 的 数据 ,在 鸡 中 被 称 为 blkptr t， 下 面 来 简单 看 一 下 该 结构 
中 的 内 容 。 


下 *y 64 56 48 46 32 24 16 8 6 

上 米 十 ------- +------- +------- +------- +------- +------- +------- +------- 十 
3 *6 | pad | vdevl | GRID | AsIzE | 

4 洲 十 ------- +------- +------- +------- +------- +------- +------- +------- 十 
和 尖 |6l offset1 | 

6. 洲 十 ------- +------- +------- +------- +------- +------- +------- +------- 十 
7. _ *2| pad | vdev2 | GRID | AsIzE | 

8. 米 十 ------- +------- +------- +------- +------- +------- +------- +------- 十 
9. + 3 |6| offset2 | 

10. _ 半 +------- +------- +------- +------- +------- +------- +------- +------- 十 
11 *41| pad | vdev3 | GRID | AsIzE | 

12. * +------- +------- +------- +------- +------- +------- +------- +------- 十 
13. * 5 |G| offset3 | 

14. 半 +------- +------- +------- +------- +------- +------- +------- +------- 十 
15. * 6 |BDX|1v1l| type | cksum |E| comp| PSIZE | LSIZE | 
16._ 半 +------- +------- +------- +------- +------- +------- +------- +------- 十 
17. * 7 | _ padding | 

18. * +------- +------- +------- +------- +------- +------- +------- +------- 十 
19._ *8 | padding | 

20. 六 +------- +------- +------- +------- +------- +------- +------- +------- 十 
21]. * 9 |  _ physical birth txg | 

22. 半 +------- +------- +------- +------- +------- +------- +------- +------- 十 
23. * a | 1logical birth txg | 

24. # +------- +------- +------- +------- +------- +------- +------- +------- 十 
2 举 避 | fil1 count | 

26. _ 半 +------- +------- +------- +------- +------- +------- +------- +------- 十 
27. * c | _ checksum[6] | 
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28. 半 +------- +------- +------- +------- +------- +------- +------- +------- 十 
29. * d | _ checksum[1] | 
30. 半 +------- +------- +------- +------- +------- +------- +------- +------- 十 
31._ * e | _ checksum[2] | 
32.  # +------- +------- +------- +------- +------- +------- +------- +------- 十 
33.， 关税 | checksum[3] | 
34. 半 +------- +------- +------- +------- +------- +------- +------- +------- 十 
代码 2-4 


下 面 来 简单 分 享 一 下 部 分 字段 的 含义 ， 如 表 2-1 所 示 。 


表 2-1 
字段 含义 
vdev 上 讶 拟 设 备 id， 症 的 存储 池 设计 , 指定 当前 是 哪个 磁盘 设备 
ofset vdev 的 偏 移 量 
GRID RAID-Z 相关 的 信息 ,目前 没有 使 用 ,保留 日 后 使 用 
和 压缩 有 关 的 功能 ,目前 xz 支持 五 种 压缩 的 算法 选择 ， 包 


compb _ 
括 gzip，lzjb，lz4，zle 和 zstd 
用 来 存放 校 验 计算 结果 的 ，256 位 ,这 里 结果 代表 的 含义 
checksum 网 
由 cksum 来 表示 
T 数值 不 同 代表 不 同 含义 ,如 4 和 gang header 等 ， 通 常用 来 
cksum 


表示 文件 数据 的 校 验 

lsize 有 辑 大 小 

bsize 物理 大 小 

asiZe 分 配 大 小 

type DMU object 类 型 , 具体 看 dm_object_type 这 个 枚 举 字 段 
Phys birth txg |fxg 事务 组 id， 和 transaction group 有 关 。 两 者 通常 情况 下 


是 一 致 的 。 但 如 果 使 用 了 dedup 或 者 有 磁盘 移 除 等 情况 ， 
logical birth txg 出 有 不 同 


王 Endian， 大 小 端 模式 
paddqing 保留 以 后 使 用 的 空间 


对 玫 psize ，asize 和 lsize 这 三 个 数值 ， 如 果 文 件数 据 开 启 了 
压缩 ， 或 者 有 Raid-Z， 那 么 可 能 会 导致 出 现 不 一 致 的 情况 。 目 
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深入 理解 文件 系统 原理 和 实践 


前 最 新 的 指针 结构 和 以 前 zt on disk format 资料 里 面 的 已 经 有 不 
一 样 的 内 容 了 ， 大 家 如 果 感 兴趣 的 话 ， 可 以 对 比 着 学 习 查 看 。 
同时 z 中 还 有 加 密 的 内 容 , 对 于 加 密 的 指针 结构 又 有 一 些 不 同 ， 
主要 是 多 了 一 些 不 同 含义 的 字段 , 其 中 包括 加 密 的 key 和 salt 等 ， 
本 小 节 内 容 暂 时 不 涉及 这 部 分 内 容 ， 感 兴趣 的 可 以 自行 查看 spa. 
p 文件 中 的 内 容 。 

另外 这 里 为 什么 会 出 现 三 份 vdev，offset 呢 ? 因为 对 于 一 些 
重要 的 数据 ， 尤 其 是 难 中 MOS 部 分 的 重要 内 容 ， 一 般 会 采用 
三 份 备份 ， 而 用 户 数据 ， 可 能 只 会 使 用 一 份 ， 不 考虑 元 余 。 

有 了 指针 结构 的 内 容 以 后 ， 下 面 来 简单 介绍 一 下 对 象 结 构 ， 
也 就 是 Object， 在 Linux 中 有 一 切 展 文件 的 说 法 ， 而 z 中 则 是 
一 切 展 对 象 ， 二 者 的 思想 是 相似 的 。 而 文件 也 是 对 象 其 中 的 一 
种 类 型 ， 通 常 就 是 dnode 结构 。 除 了 文件 ， 还 有 一 些 其 他 类 型 
的 object 类 型 ， 下 面 展 示 其 中 部 分 内 容 。 


typedef enum dmu_obJject_type 
DMU_OT_NONE， 


DMU_OT_OBJECT_ARRAY， 
DMU_OT_PACKED_NVLIST， 
DMU_OT_PACKED_NVLIST_SIZE， 
DMU_OT_BPOBJ， 
2. DMU_OT_BPOBJ_HDR， 


1 
2 
4. DMU_OT_OBJECT_DIRECTORY， 
5 
6 
7 
8 


11._DMU_OT_SPACE_MAP_HEADER， 
12._DMU_0OT_SPACE_MAP， 


14._DMU_OT_INTENT_LOG， 


16._DMU_OT_DNODE， 
17._DMU_0OT_0BJSET， 


19. _DMU_OT_DSL_DIR， 
20.__DMU_0OT_DSL_DIR_CHILD_MAP， 
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21._DMU_0OT_DSL_DS_SNAP_MAP， 
22._DMU_OT_DSL_PROPS ， 
23._DMU_0OT_DSL_DATASET， 


25._DMU_OT_ZNODE， 
26._DMU_0T_OLDACL， 
27._DMU_0OT_PLAIN_FILE_CONTENTS， 
28._DMU_OT_DIRECTORY_CONTENTS ， 
29. _DMU_OT_MASTER_NODE， 
30._DMU_OT_UNLINKED_SET， 


32._DMU_0OT_ZVOL， 
33._DMU_0OT_ZVOL_PROP， 


35._DMU_OT_PLAIN_OTHER， 
36._DMU_OT_UINT64_0THER， 
37._DMU_0OT_ZAP_OTHER， 


39._DMU_OT_ERROR_L0G， 
40._DMU_0OT_SPA_HISTORY， 
41._DMU_0OT_SPA_HISTORY_OFFSETS， 
42._DMU_0T_POOL_PROPS， 
43._DMU_0T_DSL_PERMS， 
44._DMU_OT_ACL， 


代码 2-5 


从 上 面 展示 的 内 容 可 以 看 到 ， 各 见 的 dnode 文件 结构 ，zap 
还 有 前 面 提 到 的 space map 等 都 是 一 种 对 象 类 型 ， 还 有 与 zvol 块 
设备 相关 的 ， 因 此 从 这 个 枚 举 类 型 也 可 以 进一步 地 感受 到 抽象 
统一 的 魅力 。 

从 上 面 的 枚 举 可 以 知道 ，dnode 也 是 其 中 一 种 object 类 型 ， 
而 前 面 章节 提 到 的 文件 不 同 level 层级 ， 从 level 0 到 level 1 再 到 
大 于 1 的 情况 ， 对 于 一 个 文件 的 结构 的 变化 ， 这 里 可 以 了 解 一 
下 dnode_phys t+ 结构 ， 如 下 所 示 。 
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1._ typedef struct dnode_phys 二 
人 uint8 tt dn_type; 

3 uint8 tt dn_indblkshift; 

4. uint8 七 dn_nlevels; 

和. uint8_t dn_nblkptr; 

6. uint8_t dn_bonustype; 

光 uint8 七 dn_checksum; 

8. uint8 t dn_compress; 

幼 uint8_t dn_flags; 
10._uint16 tdn_datab1lkszsec; 
11._ uint16 t dn_bonuslen; 

12.__ uint8 tt dn_extra_slots; 
13._uint8 t dn_pad2[3]; 

14. 

导 5。 

16. uint64 tdn_maxb]lkid; 
17._uint64 厨 dn_used; 

18. 

19: 

20._uint64 t dn_pad3[4]; 

刘 . 

22 

23._ union 1 

24. blkptr 七 dn_blkptr[1+DN_OLD_MAX_BONUSLEN/sizeof (blLkptr 七 )]; 
29: stPuct { 

26. blkptr t _dn_ignorel; 
5 uint8 _t dn_bonus[DN_OLD_MAX_BONUSLEN] ; 
28.]}; 

29. Struct T 

30. blkptr tt _dn_ignore2; 

3 . uint8  _dn_ignore3[DN_OLD_MAX_BONUSLEN - 
32: sizeof (blkptr t)]; 
33， blkptr t dn_spil1; 

34. ji; 

35.，] 

36.} dnode_phys_t; 


代码 2-6 


由 结构 体 的 内 容 可 以 知道 有 动态 变化 的 主要 就 是 union 联合 


体 中 的 内 容 ， 而 根据 源码 中 的 注释 内 容 可 以 清晰 的 知道 ， 这 里 
主要 有 三 种 变化 ， 如 下 所 示 。 
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臣 6 64 128 192 256 326 384 448 (offset) 
2. +--------------- +--------------- +--------------- +------- 十 
3. | dn_blkptr[6] | dn_blkptr[1] | dn_blkptr[2] | / | 
4. +--------------- +--------------- +--------------- +------- 十 
9. | dn_blkptr[6] | dn_bonus[86..319] 

6. +--------------- +----------------------- +--------------- 十 
示 | dn_blkptr[6] | dn_bonus[8..191] | dn_spil1 | 
8. +--------------- +----------------------- +--------------- 十 

代码 2-7 


其 中 第 一 种 情况 则 对 应 了 前 面 章 节 中 提 到 的 文件 的 header 
头 部 保留 的 三 个 指针 ， 用 来 直接 指向 数据 块 的 情况 ， 也 就 是 文 
件 level 0 的 情况 。 而 其 他 的 两 种 场景 都 有 涉及 bouns buffer， 这 
个 是 和 属性 有 关 的 ， 不 只 是 文件 属性 ， 还 包括 存储 池 和 系统 属 
性 等 ， 关 于 这 部 分 内 容 ， 后 面 讲解 zap 时 会 详细 提 到 。 

那么 对 于 dnode_pyhs 结构 体 中 ， 除 了 union 中 的 字段 ， 其 
他 字段 的 作用 是 什么 呢 ? 下 面 来 简单 分 享 一 下 部 分 字段 的 含义 ， 
如 表 2-2 所 示 。 


| 
yx 
下 
人 


字段 含义 

dn_type 对 应 dmu_object_type 中 的 内 容 
dn_indblkshi 进 | 这 是 间接 块 大 小 数值 取 对 数 的 结果 
dn_datablkszsec | 文件 的 数据 块 和 间接 块 大 小 ， 范 围 是 从 512b 到 128kb 
数据 校 验 的 checksum 类 型 ， 这 里 有 多 种 ,常见 的 如 
sha256, 具体 的 可 以 看 ZIO_CHECKSUM 这 个 枚 举 
记录 dnode 的 level， 和 前 面 提 到 的 文件 level 0, 1 和 大 于 
1 的 情况 对 应 起 来 
dn_maxblkid | 数据 块 的 绝对 id 最 大 值 
dn_compress “| 数据 压缩 的 类 型 ,具体 见 枚 举 ZIO_COMPRESS 的 数值 


dn_checksum 


dn_nlevel 
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2.4 zfs 属性 zap 


在 z 中 ， 与 属性 相关 的 模块 为 ZAP， 其 全 称 叫 作 zattribute 
processor， 是 DMU 中 的 一 个 子 模块 ， 这 里 提 到 了 attribute， 与 其 
属性 值 有 关 。 在 Linux 中 ， 也 就 是 与 getattr，setattr 这 些 命令 相 
关 。 同 时 ZAP 对 象 可 以 用 来 保存 数据 集 (dataset ) 的 属性 ， 用 
来 查找 文件 系统 中 的 对 象 ， 用 来 保存 存储 池 的 属性 等 等 ， 它 在 
ZFS 整个 系统 中 有 十 分 重要 的 作用 ， 如 图 2-8 所 示 。 


用 户 态 


应 用 程序 


ZPL 
VEFS Zfs 


页 面 缓存 || 文件 系统 | > 全 这 
内 核 态 


驱动 


机 械 盘 | SSD 硬件 层 


下 面 先 来 看 一 个 简单 的 例子 . 


1. [root@gfsclient61 test-replica]# getfattr -n glusterfs.gfid. 
String  a.txt 
2.# file: a.txt 
3._ glusterfs.gfid.string=”71b9fb49-53ae-42f8-bb1b-b53af17521fc?” 
代码 2-8 


所 谓 的 属性 ， 就 是 一 个 个 键 值 对 ， 这 里 可 以 设置 很 多 ， 每 
一 条 都 是 一 个 属性 值 。 除 了 stat 命令 看 到 的 ， 还 可 以 像 上 面 这 
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段 代码 一 样 设置 一 下 。 这 里 的 例子 ,是 glusterfs 中 经 常会 使 用 到 
的 ， 而 glusterfs 则 是 一 个 分 布 式 的 文件 系统 ， 与 HDFS 和 CEPH 
都 是 业界 中 比较 有 名 的 开源 的 分 布 式 存储 系统 。glusterfs 使 用 扩 - 
展 属性 的 目的 之 一 ， 是 为 了 记录 文件 的 读 写 操 作 ， 简 单 来 说 就 
是 当 有 一 次 写 人 的 时 候 ， 就 写 入 扩展 属性 并 且 递 增 相关 的 属性 
值 ， 当 操作 完成 后 ， 开 始 递减 ， 直 到 任务 完成 。 通 过 这 样 简单 
的 方式 ,来 记录 文件 的 操作 过 程 。 这 个 过 程 在 glusterfs 中 称 为 
AFR。 

zfs 中 的 ZAP 有 两 种 类 型 的 对 象 ， 分 别 被 称 为 microzap 和 
fatzap 属性 。 这 二 者 的 区 别 ， 这 与 前 面 提 到 的 文件 结构 中 的 把 属 
性 内 和 骨 进 文件 header 中 是 非常 相似 的 。 而 fatzap 就 是 当 属性 多 
了 以 后 ， 又 或 者 添加 一 些 需 要 很 长 的 名 称 的 属性 ， 需 要 对 其 进 
行 转换 文件 结构 。 当 然 ZAP 中 记录 的 不 仅 只 是 文件 的 属性 信息 ， 
还 有 包括 内 部 的 一 些 属性 信息 ， 例 如 存储 池 的 属性 等 。 


2.4.1 zap 


首先 来 看 看 zap 的 结构 体 ， 如 下 所 示 。 


1._ typedef struct zap 1 

2 dmu_buf_user t zap_dbui 

3 obJjset 七 *zap_obJjset; 

4. uint64 t zap_obJject; 

人 Struct dmu_buf *zap_dbuf; 
6 

7 

8 


krwlock tt zap_rwlock 
boolean 七 zap_ismicroy 
int zap_normf1ags; 
9. uint64 t zap_salt; 


11. union { 

] 2 struct { 

13: kmutex_ t zap_num_entries_mtxy; 
14. int zap_block_shift; 

15. } zap_fat; 

16. stPuct { 
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外 、 深入 理解 文件 系统 原理 和 实践 2、 深 入 理解 朴 


人 int16 七 zap_num_entries; 1._ int 

18. int16 七 zap_num_chunks; 2._ zap_update(objset _t *os，uint64 t zapobj，const char *name， 

19. int16 t zap_alloc_next; 3 int integer size，uint64 七 num_integers，const void *val，dmu tx 七 六 X) 

20. avl_tree tt zap_av1; 4 《 

21. } zap_microy; 有 Zap_ 荆 xzapj 

22. } zap_ui 6. 

2 3 去 

24.，} zap_ti; 8. if (!zap->zap_ismicro) 

代码 2-9 9. err = fzap_update(zn，integer_size，num_integers，val， 
10. FTAG，tx) ; 
和 Zap = zn->zn_zap; 
8 下 -| 5 5 5 12._ } else if (integer_size != 8 || num_integers != 工 || 
zap 中 zap_ismicro 就 是 用 来 判断 是 否 为 microzap 类 型 的 ， 下 13. strlen(name) >= MZAP_NAME_LEN) { 

面 的 union 联合 体 ， 则 是 用 来 区 分 二 者 不 同类 型 的 。 这 里 需要 留 14. dprintf(“upgrading ob]j 和 1u: intsz=%u numint=%]11u name=%sNn”， 

下 os ， 最 坟 。 (u_Longlong_t)zapobj，jinteger_size， 

意 一 点 ， 有 的 代码 在 以 前 的 版 本 ( 0.6.4 ) 中 ，union 结构 体 中 是 16. (u_longlong t)num_integers，name); 

下 浅 1 err = _mzap_upgrade(&zn->zn_zap，FTAG，tx，6)j 
各 上 自 保 存 了 一 个 block， 也 就 是 第 一 个 数据 块 ， 对 应 microzap 和 Il89 if (err -- 6) { 人 
fatzap 二 者 的 header 结 构 , 但 是 在 0.6.5 版 本 以 后 , 删除 了 该 代码 ， 后 一 er 人 ap tdate(2n EnteRer 红 2et nan integers。 
“= 了 了 了 

把 内 容 移 到 了 对 应 的 pyhs 结构 中 ， 如 下 所 示 。 2 } 
2 Zap = zn->zn_zap; 
23. } else { 

1 static inline zap phys 七 * 和 ent 让 find(zn); 

2 zap f phys(zap 七 *za 5. if _ (mze != NULL 

地， 二 站 呈 26. MZE_PHYS(zap，mze)->mze_value = *intVal; 

4. return (zap->zap_dbuf->db_data); 二 人 

5 - pP_ 2 3 

6. 29.，】} 

7._ static inline mzap_phys 七 * 30. 】 

8._ zap_m_phys(zap 七 *zap) 31. 

9 1 32. 

10._return (zap->zap_dbuf->db_ data); 代码 2-11 

11. 】} 


代码 2-10 
上 述 代 码 中 mzap_update 和 fzap update 的 林 数 分 别 对 应 


microzap 和 fatzap 结构 体 的 初始 化 。 
因此 ， 先 进一步 了 解 二 者 不 同类 型 结构 体 的 区 别 ， 下 面 分 
别 简单 介绍 一 下 。 


阅读 源码 时 ， 需 要 留意 该 结构 体 的 变化 ， 如 果 想 了 解 更 新 
更 详细 的 改动 ， 可 以 留意 相关 的 commit。 咯 

zapt 结 构 体 初始 化 的 代码 可 以 看 zap_update 函数 ， 可 根据 
类 型 判断 是 否 用 microzap 来 分 别 调用 不 同 的 表 数 进行 处 理 ， 如 
下 所 示 。 
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2.4.2 microzap 


microzap 实现 了 存 取 少 量 属性 的 一 种 简单 方法 。 一 个 
microzap 对 象 只 包含 一 个 数据 块 ， 该 数据 块 上 存放 microzap 的 条 
目 〈 由 mzap_ent_phys 结构 体 表 示 )， 每 个 microzap 条 目 结构 存 
放 一 个 属性 (名字 值 对 )。 为 了 理解 microzap 和 fatzap 的 区 别 ， 
下 面 先 来 简单 看 看 microzap 的 内 容 。 


1._ typedef struct _mzap_phys 
2 uint64 七 mz_block_type; 
入 uint64 七 mz_salt; 

4. uint64 七 mz_normf1ags ; 

5 

6 

7 


uint64 七 mz_pad[5]; 
mzap_ent_phys_t mz_chunk[1]; 
} mzap_phys 七 ; 


代码 2-12 


mzap_phys 就 是 microzap 的 结构 ， 其 中 mz_block_type 就 是 
ZBT_MICRO， 也 就 是 dmu 其 中 一 个 类 型 。 这 里 microzap 是 使 用 
了 一 个 数据 块 来 存放 属性 的 ， 该 数据 块 就 是 mzap_phys 的 字段 
mz_chunk。 

这 里 mzap_phys 字段 中 的 mz_normflags 和 lookup 有 关 ， 也 
就 是 与 遍 历 属性 有 关 。 这 里 有 几 个 不 同 的 设置 值 ， 可 以 参考 
zap_micro.c 中 的 函数 mzap_create_impl 的 注释 内 容 ， 这 里 提 到 会 
和 zap_lookup_norm ( ) 函数 有 关 ， 感 兴趣 的 可 以 自行 追踪 阅读 
代码 。 另 外 mz_salt 字段 是 一 个 哈 希 值 ， 用 来 识别 不 同 的 对 象 

属性 都 是 一 个 key/value 对 形式 的 ， 而 鸡 中 对 于 属性 
的 key/value 长 度 都 有 限制 ， 其 最 大 长 度 分 别 由 字段 ZAP_ 
MAXNAMELEN 和 ZAP_MAXVALUELEN 来 控制 ， 其 中 单位 是 
字 节 ( byte )， 而 默认 的 名 称 最 大 长 度 是 256 字 节 ， 属 性 值 则 是 
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2、 深 入 理解 下 


1024*8 字 节 ， 也 就 是 8Mb。 
mzap_phys 中 存放 属性 的 数据 块 是 在 mz_chunk 中 ， 因 此 下 
面 来 查看 一 下 该 结构 体 的 内 容 。 


#define MZAP_ENT_LEN 64 
#define MZAP_NAME_LEN _(MZAP_ENT_LEN - 8 - 4 - 2) 


#define ZAP_NEED_ CD (-10U) 


typedef struct mzap_ent_phys T 

uint64 七 mze_value; 

Uint32 七 mze_cd; 

Uint16 tmze_padj /* in case we want to chain them someday *#/ 
0._ char mze_name[MZAP_NAME_LEN]; 

业 


} mzap_ent_phys _t; 


二 是 Estee 


代码 2-13 


从 这 里 可 以 看 出 mze_name 就 是 记录 属性 中 的 名 称 的 ， 而 
mze_value 则 是 记录 属性 的 数值 的 ， 也 就 是 上 面 的 例子 中 等 号 后 
面 的 内 容 。 同 时 这 里 结构 体 中 的 数值 大 小 ， 对 应 mze_name 的 大 
小 是 50 字 节 ( 上面 的 MZAP_ENT_LEN 的 数值 相 减 得 到 的 )， 同 
时 mze_value 的 大 小 是 64 字 节 。 因 此 如 果 一 个 属性 超过 了 这 些 
限制 ， 必 然 需要 转换 结构 ， 也 就 是 fatzap 结构 。mze_cd 则 是 用 
来 寻找 当 hash 相同 时 的 属性 ， 这 里 需要 进行 遍历 ， 这 里 的 实现 
和 hashmap 类 似 ， 关 于 该 字段 的 使 用 ， 可 以 见 如 下 代码 所 示 。 


1 static uint32 七 

2 _mze_find_unused_cd(zap_t *zap，Uuint64 t hash) 
3 《 

4. mzap_ent_t _mze_tofind; 
S. avl_index 七 1dx; 
6 

7 

8 

9 


avl_tree tt *avl = &zap->zap_m.zap_av]1; 


ASSERT(zap->zap_ismicro); 
ASSERT(RW_LOCK_HELD(&zap->zap_rwlock) ); 


{ 相 


让 、 深入 理解 文件 系统 原理 和 实践 


10. 

11._mze tofind.mze_hash = hash) 

12._mze_tofind.mze_ cd = 9) 

13， 

14._ uint32 芋 cd = 0) 

15$. for (mzap_ent t *mze = av1l find(av1，&mze _tofind，&idx); 

16. mze && mze->mze_hash == hashj mze = AVL_ 
NEXT(av1，mze)) 

17. if (mze->mze_cd != cd) 

18. break ; 

19. Cd++; 

20. } 

2 

22._ Peturn (cd); 

23.， 小 


代码 2-14 


最 后 再 来 看 一 下 ，microzap 要 增添 属性 时 的 函数 调用 ， 也 就 


是 zapt 结构 体 中 ，union 为 zap_micro 时 对 avl tree 的 操作 ， 如 


下 所 示 。 

1]._ Static void 

2._mze_insert(zap_t *zap，jint chunkid，uint64 tt_hash) 

入 

4. ASSERT(zap->zap_ismicro); 

3 ASSERT(CRW_WRITE_HELD(&zap->zap_rwlock) ); 

6 

蕊 mzap_ent 七 *mze = kmem_alloc(sizeof (mzap_ent_t)，KM_SLEEP); 
8. mze->mze_chunkid = chunkid， 


mze->mze_hash = _hash， 


mze->mze_cd = MZE_PHYS(zap，mze)->mze_cd; 


ASSERT(MZE_PHYS(zap，mze)->mze_name[6] != 6)) 


avl_add(&zap->zap_m.zap_av1I，mze); 


代码 2-15 


2.4.3 fatzap 


下 面 来 看 一 下 fatzap 的 结构 ，fatzap 结构 用 一 种 灵活 的 方式 


来 存储 大 量 的 属性 ， 或 者 是 用 表示 属性 的 名 字 值 对 有 较 长 的 名 
字 或 较 长 的 值 (不 是 uint64t 类 型 ) 的 情况 。 
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fatzap 和 microzap 不 一 样 的 地 方 在 于 ，fatzap 有 两 个 类 型 结 
构 ， 分 别 是 ZBT_HEADER 和 ZBT_LEAF， 根 据 名 称 可 以 看 出 ， 


前 者 就 是 fatzap 结构 的 header 节点 ， 而 后 者 则 是 叶子 节点 。 


fatzap 对 和 象 的 第 一 个 数据 块 上 保存 了 一 个 Zap_phys_t 结构 


体 ， 根 据 hash 表 的 大 小 ， 会 决定 是 否 将 hash 表 直 接 存放 在 zap_ 


phys + 结构 体 中 (hash 表 要 占用 第 一 个 数据 块 一 半 的 空间 。 


当 


索引 表 较 大 时 ， 需 要 将 它 放 在 zap_physt 之 外 ) 下 面 来 看 一 下 


ZBT_HEADER 类 型 对 应 的 结构 体 zap_phys_t， 如 下 所 示 。 


typedef struct zap_phys 


uint64 七 zap_block_typej 


uint64 七 zap_magicy; 


Uint64 七 zt_blk; 


uint64 七 zt_numb1lks; 


1 
2 
3 
4 
5. struct zap_table_phys 
6 
7 
8 


Uint64. 七 zt shift; 


9. Uint64 七 zt_nextblk; 


10. uint64 七 zt_blks_copied; 


位 直 2ap. DEFtbl3 


12. 

13._uint64 t 研 zap_freeblki 
14._uint64 七 zap_num_leafs; 
13$._uint64 tt zap_num_entries 
16._uint64 t zap_salti 
17._uint64 七 zap_normf1lags; 
18._uint64 七 zap_flags; 

19. 


20.，} zap_phys_ 七; 


代码 2-16 


fatzap 对 象 中 所 有 的 条 目 〈key/value 数值 对 ) 都 通过 属性 名 
的 64 位 的 hash 值 来 记录 。fatzap 用 该 hash 值 在 一 个 hash 表 中 


进行 索引 ， 以 得 到 存放 属性 名 字 值 对 应 的 数据 块 。hash 值 中 用 
来 进行 索引 的 比特 数 (prefix ) 由 hash 表 的 大 小 决定 ，hash 表 会 


随 着 fatzap 中 存放 的 条 目 增多 而 变 大 。 每 一 个 hash 表 项 指向 一 
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个 fatzap 数据 块 ， 用 zap_leaf_phys 结构 表示 ， 每 一 个 数据 块 又 


包含 了 很 多 个 子 块 (chunk )， 用 zap_leaf_chunk 结 


个 属性 的 名 字 和 值 存在 于 多 个 子 块 之 中 。 
zap_table_phys 表示 hash 表 的 结构 体 。zt_blk 


构 表示 。 每 一 


，hash 表 的 第 


一 个 数据 块 号 ， 当 hash 表 不 在 zap_phys_t 结构 体内 部 时 该 字段 
有 效 ， 否 则 设 为 0。zxt_numblks 记录 、hash 表 占 用 的 数据 块 数 。 
当 hash 表 不 在 zap_phys_t 结 构 体 内 部 时 该 字段 有 效 ,否则 设 为 0; 


zt_shi 舍 ，hash 值 中 用 来 索引 hash 表 的 比特 数 。zt_nextblk 和 zt 


blks_copied 在 hash 表 改 变 大 小 时 采用 。 
其 结构 关系 如 图 2-9 所 示 。 


zap_physt 


国 zap leaf_phys 上 ~ 


pointer 
table 


zap_leaf_phys 上 一” zap leaf phys 


岂 


zap _ leaf entry 


le_next le_next 


一 一 一 


le_ name_chunk le value chunk 


zap _ leaf array 


zap_ leaf array 


la_next la_next 


| 


1a_nexT 
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2、 深 入 理解 难 


接着 来 看 看 zap_leaf_phys_t 的 结构 ， 如 下 所 示 。 


1._ typedef struct zap_leaf_phys 
2. struct zap_leaf_header { 
3 

4. uint64 tt 1lh_block_type; 
3. Uint64 tt lh_pad1l; 

6. uint64 七 Ih_prefixy; 

志 uint32 tt lh_magicy; 

8. uUint16 七 jh_nfree; 

9. uUint16 七 ljh_nentries; 
10. uint16 tt 1lh_prefix_leni; 
| 

2 

人 二: Uint16 七 1h_ freelist; 
14. Uint8_ tt LIh_flags; 

15. uint8 t 1lh_pad2[11]; 

16._ } 1_hdr; 

17. 

18._uint16 t 1_hash[1]; 

19. } zap_leaf_phys_ 七; 


代码 2-17 


这 里 有 很 多 结构 的 含义 ， 与 microzap 中 的 类 似 ， 因 此 就 不 


再 过 多 重复 介绍 了 。 而 以 前 的 代码 中 ， 还 会 把 zap_leaf_chunk 的 
结构 体 放 在 zap_leaf_pyhs t 中 ， 现 在 则 独立 出 来 ， 如 下 所 示 。 


typedef union zap_leaf_chunk { 


人 struct zap_leaf_entry 1 

人 uint8 tt le_type; 

4. Uint8 tt le_value_intlen; 
号 , Uint16 七 le_next; 

6. Uint16 夺 le_name_chunk ; 
有 uUint16 七 le_name_numints; 
8. uint16 tt le _ value_chunk; 
9. uUint16 廿 le_ value _numints; 
10. Uint32 七 le_cd; 

下 也 Uint64 七 le_hash; 

12._ } 1_entry; 

13._ struct zap_leaf_array 1 
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14. uint8 七 1a_type; 

15. uint8_ t 1a_array[ZAP_LEAF_ARRAY_BYTES ] ; 
16. uint16 七 1a_next; 

17._ } 1_arrayj 

18._ struct zap_leaf_free { 

19. uint8_t 1f_type; 

20.， uint8 七 If_pad[ZAP_LEAF_ARRAY_BYTES ] ; 
忆 | Uint16 七 If_next; 

22._ )} 1 free; 

23.} zap_leaf_chunk_t; 


代码 2-18 


这 里 zap_leaf_free 结构 则 是 用 来 保存 那些 要 释放 的 内 容 的 ， 
这 里 可 以 参考 困 数 zap_leaf_chunk _free 中 的 内 容 。 另 外 当 数 据 
多 了 以 后 ， pointer table 需要 扩展 ， 这 里 可 以 参考 zap_sgrow_ptrbl 
困 数 。 


2.5 位 图 与 metaslab 


现在 来 了 解 一 下 鸡 的 spa 模块 ， 其 中 metaslab 是 一 个 非常 
有 意思 的 模块 ， 也 是 很 重要 的 内 容 。 从 前 面 的 内 容 可 以 知道 spa 
负责 存储 池 管 理 ， 而 每 个 存储 池 可 能 会 有 多 个 不 同 的 磁盘 ， 不 
同 磁盘 之 间 可 能 是 镜像 ， 热 备 或 者 Raid 关系 等 ， 这 里 我 们 先 简 
化 一 下 模块 ， 以 一 个 最 基础 的 场景 来 先 了 解 一 下 spa。 这 里 假设 
只 有 一 个 磁盘 的 话 , 那么 在 windows 下 , 大 家 都 知道 要 使 用 分 区 ， 
也 就 是 c 盘 ,4 盘 和 e 盘 等 ， 而 这 么 多 年 的 使 用 习惯 下 ， 大 家 都 
会 默认 把 e 盘 作 为 系统 盘 来 使 用 (这 当然 不 是 强制 的 ， 只 是 用 
户 习惯 形成 的 ) 那么 在 鸡 的 磁盘 管理 单元 中 ，metaslab 也 可 以 
理解 为 一 个 个 分 区 ， 也 就 是 对 当前 的 磁盘 进行 划分 不 同 的 分 区 ， 
并 且 每 个 分 区 负责 一 部 分 区 域 的 空间 管理 。 

那么 这 里 metaslab 的 数量 划分 到 底 是 怎样 的 呢 ? 其 如 表 2-3 
所 示 。 
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vdev Size metaslab count 
< 8GB ~16 
8GB~100GB one ber 512MB 
100GB - 3TB ~200 
41 卫 . 一 2PB one ber 16GB 
> 2PB ~131,072 
表格 2-3 


这 个 表格 的 内 容 来 源 于 openzfs 的 源码 ， 在 vdev.c 文件 中 。 
由 表 2-3 可 以 看 到 ， 大 部 分 情况 下 ， 磁 盘 容 量 在 100CB ~3TB 的 
范围 内 ， 那 么 metaslab 的 数量 大 概 承 在 200 个 左右 ， 这 也 是 很 
多 文章 所 说 的 200 的 数字 来 源 了 。 

在 zf 的 源码 中 ， 关 于 metaslab 还 有 两 个 数值 值得 关注 ， 分 
别 是 ms_size 和 ms_count， 这 里 数值 关系 如 下 所 示 。 


1]. 2^29 <= ms_size 《= 2^34 
2. 16《<= ms count 《= 131,672 


代码 2-19 


大 家 在 这 里 可 以 思考 一 下 ， 为 什么 要 考虑 对 磁盘 空间 管理 
进行 划分 区 域 呢 ? 这 里 有 什么 好 处 呢 ? 如 果 整 个 磁盘 都 是 由 一 
个 大 的 空间 进行 管理 ， 那 么 并 发 问题 会 比较 明显 ， 同 时 空间 碎 
片 化 管理 的 难度 也 会 更 大 (因为 每 次 做 磁盘 空间 碎片 化 管理 扫 
描 的 话 ， 需 要 对 当前 整个 空间 管理 记录 进行 扫描 ， 那 么 如 果 一 
边 读 写 一边 修 改 ， 闪 来 的 并 发 处 理 问题 会 更 加 环 手 ， 冲 突 概 率 
也 会 增 大 )。 除了 这 些 ， 一 般 来 说 ， 磁 盘 空 间 使 用 ， 并 不 会 是 整 
个 磁盘 空间 都 会 马上 使 用 的 ， 就 像 大 家 写 人 磁盘 数据 那样 ， 通 
常 是 优先 使 用 前 面 的 一 部 分 磁盘 空间 ， 然 后 写 满 了 再 到 下 一 个 
区 域 。 

同时 ， 如 果 磁 盘 是 机 械 人 硬盘 的 话 ， 那 么 整个 空间 管理 都 是 
以 磁盘 为 单位 ， 其 实 也 是 不 友好 的 ， 一 个 明显 的 特点 是 机 械 硬 
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盘 是 有 柱 面 、 忆 区 这 些 概念 的 ， 不 同 柱 面 的 读 写 速 度 ， 切 换 不 
同 柱 面 所 带 来 的 时 间 和 性 能 成 本 不 可 忽略 ， 因 此 在 Jeff 的 博客 
中 ， 还 提 到 了 考虑 磁盘 内 外 道 扫 描 速 度 的 差异 ， 因 此 这 些 都 可 
以 成 为 考虑 的 因素 之 一 。 

当然 ， 除 了 这 些 ， 还 有 一 个 问题 大 家 可 以 考虑 一 下 ， 不 管 
是 新 的 磁盘 区 域 激 活 使 用 ， 还 是 有 一 个 新 的 磁盘 加 入 存储 池 进 
行 扩容 ， 新 的 磁盘 空间 加 入 ， 就 一 定 会 涉及 数据 均衡 问题 。 也 
就 是 说 ， 一 旦 有 新 的 空间 加 入 ， 那 么 对 于 新 请 求 ， 权 重 该 如 何 
考虑 呢 ? 旧 的 数据 文件 需要 进行 迁移 吗 ? 新 的 文件 创建 ， 是 不 
是 应 该 偏向 新 的 磁盘 空间 呢 ? 这 个 问题 ， 也 不 只 是 单机 文件 系 
统 需要 考虑 的 ， 分 布 式 环境 下 一 样 需 要 考虑 ， 例 如 glusterfs 的 
volume 扩容 之 后 ， 数 据 均 衔 都 是 要 考虑 的 。 

对 于 数据 均衡 问题 ， 笔 者 认为 ， 这 不 是 技术 问题 ， 更 多 俩 
向 于 业务 问题 ， 因 为 不 同 场景 下 需求 不 同 。 有 些 企 业 如 果 是 存 
的 视频 数据 ， 尤 其 是 一 些 监控 视频 、 历 史 监 控 数 据 等 ， 这 些 数 据 
内 容 都 华 有 明显 的 时 间 维 度 。 这 时 候 数 据 倾斜 是 正常 的 ， 因 为 旧 
数据 存放 在 有 旧 磁盘 空间 上 ， 而 且 旧 数据 的 读 取 次 数 会 逐渐 减少 ， 
甚至 成 为 冷 数 据 和 无 效 数据 (所 谓 无 效 ， 也 是 根据 业务 来 考虑 
的 )。 所 以 这 些 问题 的 考虑 ， 更 多 要 结合 业务 场景 来 思考 。 

同时 ， 这 里 也 不 能 把 太 多 新 的 文件 读 写 创建 请 求 都 放 在 新 
的 磁盘 空间 中 ， 这 样 做 也 会 导致 新 的 磁盘 空间 被 大 量 使 用 ， 如 
果 是 单独 的 磁盘 的 话 ， 该 节点 的 性 能 瓶颈 短 时 间 内 都 会 集中 在 
该 磁盘 上 ， 这 样 做 也 是 非常 不 友好 的 。 因 此 为 了 均 衔 以 上 提 到 
的 问题 ， 在 分 布 式 环境 下 ， 就 需要 做 QoS 了 ， 核 心 需求 之 一 怠 
是 分 布 式 环境 下 的 流量 负载 均衡 。 

在 单机 环境 下 ， 如 果 有 多 个 磁盘 可 以 选择 ， 那 么 还 要 考虑 
不 同 磁盘 IOPS 的 不 同 〈 通 党 建议 生产 环境 下 ， 配 置 都 是 标准 化 
和 统一 的 ， 也 就 是 不 会 出 现 cpu 核 数 ， 磁 盘 容 量 差异 很 大 的 情 
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况 , 或 者 有 的 节点 有 固态 , 有 的 没有 , 那么 分 布 式 多 副本 情况 下 ， 
对 读 写 影响 是 比较 大 的 ) 如 果 是 有 固态 和 机 械 硬盘 ， 还 要 考虑 
二 者 的 性 能 差异 。 

了 解 了 metaslab 的 数量 划分 情况 ,那么 ， 到 底 在 每 个 
metaslab 中 是 如 何 做 空间 管理 的 呢 ? 在 深入 了 解 metaslab 之 前 ， 
先 来 分 享 一 下 以 前 的 磁盘 空间 管理 技术 一 一 位 图 BitMap。 

位 图 技术 的 使 用 ， 在 早期 的 文件 系统 如 ext2 中 是 有 应 用 的 ， 
其 实 原理 很 简单 ， 就 是 根据 格式 化 时 ， 指 定 磁 盘 数 据 的 块 大 小 ， 
然后 计算 出 所 需要 的 位 图 空间 大 小 。 以 默认 的 4k 为 例 ， 位 图 就 
是 用 一 个 比特 位 ，0 和 1 来 表示 当前 的 4 空间 是 否 被 使 用 过 。 
当然 在 ext 文件 系统 中 ， 磁 盘 空 间 划 分 叫 作 bloek group。 因 此 每 
个 block group 中 都 有 一 个 对 应 的 位 图 来 记录 这 些 数据 , 如 图 2-10 
所 示 。 


Index 
0 1 


Bitmap 
图 2-10 
使 用 位 图 来 做 空间 管理 ， 好 处 为 简单 和 一 目 了 然 。 只 要 
空间 被 使 用 了 ， 那 么 该 比特 位 置 为 1 即 可 。 这 个 数据 的 使 用 在 
ext2 文件 系统 如 图 2-11 所 示 。 


ext2 file system 


data blocks 
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这 里 使 用 位 图 会 出 现 一 些 麻 烦 。 首 先 就 是 空间 问题 ， 一 个 
几 太 字 节 的 空间 数据 则 可 能 需要 几 百 兆 的 位 图 数据 空间 ， 那 么 
随 着 数据 的 增长 ， 现 在 动 辑 几 百 太 字 节 甚 至 更 多 的 数据 存储 ， 
那么 文件 的 位 图 数据 大 小 就 不 可 忽视 了 。 同 时 申请 和 释放 都 要 
持久 化 位 图 的 结构 到 磁盘 上 ， 虽 然 可 以 只 持久 化 修改 的 block 
group 下 的 位 图 ， 但 是 如 果 文 件 跨 了 很 多 block group 的 话 ， 那 么 
更 新 的 I0 操作 也 非常 的 难 。 

对 一 个 1GB 的 文件 系统 来 说 ， 如 果 它 的 Bitmap 是 32KB， 
很 容易 将 这 部 分 数据 存储 到 内 存 中 ， 也 很 方便 对 其 进行 扫描 ， 
找到 空闲 空间 。 那 么 对 于 一 个 1TB 的 文件 系统 来 说 ，Bitmap 是 
32MB， 同 样 可 以 很 方便 地 存放 在 内 存 中 ， 但 是 扫描 这 32MB 数 
据 的 每 一 位 就 不 是 那么 容易 的 事情 了 。 而 对 于 1PB 的 文件 系统 
来 说 ， 它 的 Bitmap 是 32GB， 这 对 于 大 多 数 机 器 的 内 存 来 说 都 是 
不 能 接受 的 。 这 就 意味 着 要 从 人 硬盘 上 将 这 32GB 的 数据 读 出 ， 然 
后 扫描 每 一 位 数据 ， 这 将 会 更 慢 。 很 显然 ， 这 种 方式 并 不 适合 。 

一 个 优化 方法 是 将 Bitmap 分 成 许多 个 小 块 ， 每 次 只 管理 一 
个 小 块 中 的 位 。 比 如 ， 对 于 使 用 4KB 块 大 小 的 1PB 文件 系统 
来 说 ， 空 闲 空间 可 以 划分 为 一 百 万 个 小 的 bitmap， 每 个 大 小 为 
32KB。 同 时 将 概要 信息 (使 用 一 百 万 个 整数 来 表示 每 个 bitmap 
中 的 空间 ) 存放 在 内 存 中 ， 这 样 一 来 就 可 以 很 容易 找到 空闲 空 
间 ， 而 且 扫描 小 的 bitmap 要 高 效 得 多 。 

但 是 这 里 仍然 有 一 个 很 严重 的 问题 ，Bitmap (s ) 不 仅 是 在 
分 配 新 block 的 时 候 需要 被 更 新 ， 在 block 被 释放 的 时 候 也 要 被 
更 新 。 文 件 系统 控制 着 分 配 的 位 置 (这 决定 数据 将 被 写 人 哪些 
block )， 同 时 也 要 控制 释放 的 位 置 。 一 些 很 简单 的 操作 ， 比 如 
“rm 下” 会 造成 整个 设备 上 的 block 被 释放 。 以 1PB 的 文件 系统 
为 例 ， 在 最 坏 的 情况 下 ， 删 除 一 个 4CB 的 数据 (一 百 万 个 4K 
的 block ) 将 需要 对 这 百 万 个 bitmaps 进行 读 、 修 改 、 写 回 操作 。 
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也 就 是 说 ， 删 除 一 个 4CB 的 文件 可 能 将 涉及 2000 万 次 磁盘 的 JI/ 
0 操作 。 

因此 鸡 并 没有 使 用 位 图 的 方式 来 管理 磁盘 空间 ， 那 么 这 里 
metaslab 是 如 何 做 的 呢 ? 如 图 2-12 所 示 。 


ALLOCATE 
metaslab class 


free_ segment(ms allocata 本 同和 四 (write to space 
ble) 四 map) 


metaslab 。” metaslab metaslab 


ms defer- ， (write to space 
map) 


名 2-12 

那么 当 block 准备 被 释放 的 时 候 , 会 被 添加 到 ms_freeing 中 ， 
再 添加 到 ms_freed 中 。 

根据 z 对 ms_freeing 和 ms_freed 的 数据 进行 结构 注释 ， 其 
中 ms_freeing 是 正在 处 理 的 txg 事务 要 释放 的 空间 ， 而 ms_freed 
是 当前 txg 事 务 已 经 释放 的 空间 (txg 是 transaction group, 事务 组 ， 
这 里 可 以 先 简 单 理 解 为 每 个 事务 的 处 理 即 可 ， 后 面 会 提 到 )。 

那么 当 txg 已 经 处 理 完成 之 后 ， 并 且 空 间 释 放 了 ，block 空 
间 会 被 转移 到 ms_defer tree 中 ， 这 里 可 以 称 为 延迟 释放 树 。 延 迟 
释放 的 概念 是 因为 虽然 当前 的 block 空间 已 经 被 释放 了 ， 但 是 并 
不 能 马上 被 重新 利用 ， 需 要 等 到 一 段 时 间 之 后 才能 重新 使 用 。 

那么 这 个 一 段 时 间 是 多 和 久 呢 ? 这 里 就 是 参数 TXG_DEFER_ 
SIZE 的 作用 了 ， 这 里 是 默认 为 2， 意味 着 就 是 在 后 续 两 个 txg 执 
行 完成 后 才能 重新 使 用 。 

举 个 例子 ， 如 果 当 前 kg 是 1， 释放 了 block 空间 ， 那 么 只 
有 1+ TXG_DEFER_SIZE， 也 就 是 当 执行 到 txg 为 3 的 时 候 ， 才 
能 重新 利用 。 
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这 是 为 了 数据 安全 ， 因 为 如 果 要 释放 的 数据 马上 可 以 被 其 
他 新 的 请 求 使 用 ， 一 旦 事务 执行 失败 了 ， 那 么 旧 的 数据 空间 可 
能 已 经 被 覆 善 无 法 进行 回 滚 ， 会 造成 数据 丢失 、 内 存 踩 踏 等 现 
象 ， 这 是 非常 危险 的 行为 。 

最 后 来 看 一 下 metaslab 的 结构 。 


1._ struct metas1Lab { 

2. Space_map tt xms_sm; 

有 Uint64 七 ms_ id; 

4. Uint64 七 ms_start; 

光 。 Uint64 七 ms_sizej 

6. uint64 t ms_fragmentationj 

光 

8. range_tree_t *ms_allocating[TXG_SIZE]; 
电 range_tree_t *ms_allocatab1le; 

10. range_tree_t *ms_freeing; 

1 range_tree_t xms_freedj 

12: range_tree_t *ms_defer[TXG_DEFER_SIZE]; 
13: 

14.，} 


代码 2-20 


metaslab 中 使 用 的 range_tree 其 实 是 avl tree。 这 里 有 一 个 
字段 ms_ sm， 这 个 就 是 spacemap， 也 就 是 与 日 志 相 关 的 ， 每 个 
metaslab 下 面 会 关联 很 多 日 志 人 信息， 这些 日 志 都 会 记录 当前 的 
metaslab 申请 和 释放 的 空间 ， 关 于 这 部 分 内 容 见 下 一 个 小 节 。 


2.6 zfs SpaceMap 和 MetaSlab 


前 面 提 到 ， 每 个 metaslahb 字段 中 都 会 关联 spacemap， 那 么 
既然 涉及 日 志 ， 必 然 会 有 一 个 问题 需要 考虑 ， 那 就 是 日 志 什 么 
时 候 过 期 ， 又 或 者 说 日 志 什 么 时 候 被 删除 ? 

对 于 spacemap 日 志 来 说 ， 因 为 记录 的 信息 ,也 就 是 metaslab 
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的 tree 是 在 内 存 中 的 ， 理 论 上 说 ， 累 积 了 一 段 时 间 之 后 ， 如 果 
日 志 数 量 很 多 再 落 盘 ， 那 么 在 这 个 间隔 时 间 内 ， 知 节点 出 现 问 
题 了 ， 需 要 把 日 志 重 做 ， 也 就 是 重新 解析 ， 再 构建 好 metaslab 
的 ree 信息 ， 这 个 时 间 会 很 长 ， 同 时 因为 metaslab 的 数量 还 与 
磁盘 大 小 有 关 ， 通 党 是 200 个 。 因 此 一 且 日 志 累 积 过 多 ， 那 么 
可 能 需要 重 做 日 志 的 metaslab 也 不 少 。 

当然 这 里 还 有 一 个 问题 需要 考虑 ， 那 就 是 日 志 的 数量 是 否 
应 该 要 限制 呢 ? 因为 当日 志 数 据 量 很 大 了 以 后 ， 占 用 的 空间 是 
不 小 的 ， 如 果 一 个 系统 开启 了 debug 又 或 者 trace 级 别 的 日 志 ， 
日 志 刷 新 的 频率 是 非常 高 的 。( 这 一 点 glusterfs 的 volume 就 可 以 
动态 修改 日 志 级 别 进行 调试 查看 问题 )。 这 里 日 志 的 数量 多 到 一 
定 程度 时 ， 也 需要 触发 metaslab 信息 落 盘 的 操作 ， 来 进一步 释 
放 日 志 空 间 。 那 么 这 里 设置 上 限 的 时 候 ， 有 两 种 方式 可 以 对 其 
考虑 ， 一 是 考虑 绝对 值 ， 二 是 考虑 百分比 。 

对 于 一 个 磁盘 来 说 ， 百 分 比 很 好 理解 ， 例 如 限制 spacemap 
日 志 信 息 为 1C6， 那 么 达到 效 值 的 70% 甚至 50% 以 后 ， 就 要 考 
虑 进行 刷新 ， 尽 量 把 使 用 量 减 少 到 一 半 以 下 ， 用 来 预防 部 分 大 
I0 流量 时 刻 ， 在 短 时 间 内 日 志 信 息 很 多 ， 一 方面 正常 文件 的 读 
写 请 求 很 多 ， 同 时 日 志 信息 也 不 少 ， 但 是 z 来 不 及 处 理 日 志 删 
除 等 任务 (对 于 磁盘 空间 也 是 相似 的 ， 当 磁盘 空间 使 用 量 达到 
一 半 以 上 时 ， 就 要 开始 留意 了 ， 如 果 达 到 70% 以 上 ， 就 属于 一 
个 比较 谨慎 的 时 候 了 ， 一 旦 磁盘 被 使 用 完 ， 或 者 磁盘 使 用 量 达 
到 90% 以 上 ， 很 容易 出 现 各 种 问题 ， 如 性 能 快速 下 降 )。 

那么 绝对 值 又 是 如 何 考 虑 的 呢 ? 当 达 到 规定 数值 就 进行 数 
据 落 盘 。 因 为 磁盘 大 小 是 不 一 样 的 ， 有 些 是 以 GB 为 单位 的 ， 稼 
见 的 如 512CB、256GB 的 固态 等 ， 但 是 也 有 一 些 是 以 TB 为 单位 
的 ， 尤 其 是 机 械 硬 盘 ， 现 在 上 太 字 节 的 机 械 硬 盘 是 很 常见 的 。 在 
生产 环境 中 ,笔者 使 用 过 12TB 的 机 械 硬 盘 ， 当 时 节点 是 12*12TB 
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的 。 看 这 时 候 还 是 以 百分比 来 考虑 的 话 ， 就 会 显得 有 点 大 了 ， 因 
此 也 有 考虑 绝对 值 的 ， 例 如 1G 的 磁盘 容量 大 小 。 

当 两 个 数值 放 在 一 起 的 时 候 ， 该 如 何 考虑 呢 ? 这 种 情况 ， 
一 般 是 采用 更 加 保守 的 方式 ， 也 就 是 取 二 者 的 较 小 值 。 

考虑 了 spacemap 日 志 的 大 小 之 后 ， 下 面 先 来 看 看 spacemap 
中 记录 了 什么 内 容 。 一 些 空间 常见 的 申请 和 释放 过 程 如 图 2-13 
所 示 。 


SPACEMAP 


TXG-N 


FREE ALLOCATE [1.8] 


ALLOCATE [8,10] 


| | ALLOCATE FREE [1,3] 


FREE [6,7] 
FREE [9,10] 


spacemap 中 主要 是 记录 了 metaslab 的 日 志 释 放 和 申请 ， 也 
就 是 源码 中 的 maptype 字段 的 作用 . 


1._ typedef _ enum 
2 ”SM_ALLOC， 

3. SM_FREE 

4. maptype 七 ; 


代码 2-21 


刷新 的 时 候 ， 也 就 是 事务 组 执行 的 时 候 ， 把 metaslah 的 信 
息 落 盘 ， 这 里 有 两 个 字段 就 是 与 spacemap 的 申请 释放 日 志 相关 
的 ， 如 下 所 示 。 
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1._ struct metas1Lab { 

2. range_tree_t *ms_unflushed_allocs; 
3. range_tree _t xms_unflushed_frees 
4. 

5 } 


代码 2-22 


每 次 刷新 的 时 候 ， 该 释放 多 少 日 志 空 间 ， 又 或 者 说 ， 该 选 
择 多 少 个 metaslab 来 进行 考虑 刷新 落 盘 信息 呢 ? 因为 通常 每 个 
磁盘 大 部 分 情况 下 大 约 200 个 metaslab (这 个 数值 没 印象 可 以 看 
前 面 小 节 内 容 )。 那 么 每 次 都 需要 考虑 把 全 部 的 metaslab 刷新 落 
盘 吗 ? 这 当然 不 需要 ， 前 面 提 到 一 个 日 志 的 限制 数值 ， 也 就 是 
说 如 果 目 前 日 志 数 量 信息 远 远 没有 达到 限制 半 值 ， 那 么 每 次 事 
务 组 执行 事务 都 会 持久 化 metaslab 的 信息 。 因 为 metaslah 的 信 
息 也 不 是 每 个 都 会 均匀 使 用 的 ， 可 能 有 些 metaslab 累积 的 信息 
多 ， 也 有 些 很 少 。 因 此 openzfs 曾经 考虑 过 使 用 预测 的 方式 来 释 
放 日 志 空间 。 所 谓 预 测 ， 就 是 根据 考虑 前 几 次 的 metaslab 落 盘 
时 释放 的 日 志 数 据 量 ， 得 到 一 个 平均 值 ， 再 与 日 志 数 据 量 阔 值 
进行 综合 考虑 。 

另外 关于 日 志 ， 这 里 还 需要 留意 一 个 问题 ， 因 为 spacemap 
中 记录 的 都 是 metaslab 的 申请 和 释放 信息 ， 这 也 了 台 是 会 出 现 一 
些 情 况 : spacemap 中 的 日 志 很 多 ， 但 是 实际 上 ， 都 是 相同 或 者 
有 重生 的 区 域 。 例 如 一 个 区 域 [L ，10] 被 申请 了 空间 ， 寿 中 间 又 
被 释放 和 再 次 申请 等 ， 也 会 产生 很 多 log 日 志 ， 如 果 这 些 日 志 累 
积 的 信息 过 多 了 ， 落 盘 的 时 候 也 会 无 形 中 增加 了 IO 负担 ， 如 图 
2-14 所 示 。 
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SpaceMap 


图 2-14 

这 里 就 引申 出 一 个 概念 ， 叫 作 碎 片 化 ， 在 了 解 这 个 概念 之 
前 来 先 看 一 下 metaslab weight。 当 请 求 写 入 磁 盘 的 时 候 ， 需 要 选 
择 一 个 metaslab 来 进行 考虑 ， 那么 这 个 权衡 的 字段 是 ms_weight， 
如 下 所 示 。 


1._ struct metas1lab 1 


. uint64 tt ms_synchist[SPACE_MAP_HISTOGRAM_SIZE]; 
3. uint64 t ms_deferhist[TXG_DEFER_SIZE][SPACE_MAP_ 
HISTOGRAM_SIZE]; 
4. uint64 tms_weight; 
六 
6 
代码 2-23 


metaslab 中 的 字段 ms_synchist 相当 于 ms_freeing + ms_freed ， 
而 ms_deferhist 每 个 数组 则 相当 于 对 应 的 ms_defer。 

这 里 ms_weight 的 考虑 就 会 和 碎片 化 有 关 了 ， 所 谓 碎 片 化 ， 
这 里 zf&s 会 使 用 数组 来 记录 一 下 不 同 的 大 小 区 间 申 请 释放 的 情况 
(这 里 zx 的 说 法 是 histogram， 直 方 图 ， 其 实 可 以 简单 理解 为 不 
同 区 间 的 申请 数据 ， 放 在 表格 上 就 类 似 一 张 直 方 图 那样 )。 

对 于 数据 的 空间 申请 ， 这 里 的 数据 块 大 小 是 有 不 同 区 间 的 ， 
从 512B 到 16MB， 其 会 记录 不 同 区 间 大 小 的 数据 数量 ， 这 些 区 
间 见 zfs_frag_table 字段 ， 有 4k、16k 这 些 常见 的 大 小 ， 也 有 1M 
和 16M， 这 些 数据 数量 汇总 起 来 ， 就 是 可 以 形成 一 个 直方 图 那 
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2、 深 入 理解 下 


样 的 统计 输出 了 ， 这 就 是 histogram。 当 然 直 方 图 的 功能 ， 需 要 
开局 一 个 Feature, 如 果 该 Feature 不 开启, 其 计算 方式 是 不 同 的 。 
该 Feature 是 SPA_FFATURE_SPACFEMAP_HISTOGRAM ( 见 spa_ 
feature 枚 举 中 的 内 容 )。 


1._ typedef _ enum _ spa_feature 并 

2 SPA_FEATURE_NONE = -1， 

3 SPA_FEATURE_SPACEMAP_HISTOGRAM， 
4 

5 } 


代码 2-24 


同时 关于 metaslab 的 权重 统计 ， 见 metaslab_weight 上 晤 数 ， 
如 下 所 示 。 


1._ Static uint64 七 
2._ metas1lab_weight(metaslab 七 *msp，boolean _ t nodirty) 
3 二 
4. 本 
祭 if (msp->ms_loaded) 1 
6 msp->ms_max_size = _metaslab largest_allocatable(msp); 
中 } else 
8. msp->ms_max_size = MAX(msp->ms_max_size， 
9. metaslab_largest_unflushed_free(msp) ); 
10. } 
让 
2 上 
代码 2-25 


从 这 段 代 码 中 可 以 看 出 ， 如 果 是 已 经 被 使 用 加 载 的 
metaslab， 那 么 这 里 考虑 其 最 大 的 可 用 空间 。 对 于 权重 的 选择 ， 
一 般 主 要 有 两 种 方式 ， 一 是 考虑 全 部 的 可 用 空间 ， 二 是 考虑 最 
大 的 连续 可 用 空间 。 这 两 种 方式 都 有 优 缺 点 。zE 这 里 选择 了 最 
大 的 可 用 空间 。 其 可 用 空间 需要 考虑 到 metaslab 的 延迟 释放 问 
题 ， 也 就 是 说 ， 当 一 个 空间 确定 要 被 释放 掉 以 后 ， 其 是 会 存放 


083 


在 deferred tree 中 的 ， 同 时 还 会 保存 在 前 面 提 到 的 unflushed tree 
中 。 因 此 这 里 的 实际 可 用 空间 是 需要 考虑 延迟 释放 部 分 的 空间 
的 。 这 也 就 是 metaslab_largest_unflushed_free 函数 中 所 做 的 事情 。 


提 zZpool create hilton raidz2 vdc vdd vde vdf vdg spare vdh 


个 人 深入 理解 文件 系统 原理 和 实践 


# _Zpool status 


pool: hilton 


State: ONLINE 


scan: none requested 


config: 


澡 | 彰 | 治本 | 人 | 本 | 风 陈 必 


NAME 


STATE 


READ WRITE _CKSUM 


hilton 


ONLINE 


9 


9 


raidz2-6 


ONLINE 


Vvdc 


ONLINE 


vdd 


ONLINE 


vde 


ONLINE 


Vvdf 


ONLINE 


vdg 


ONLINE 


Q@QOQGOQGOIQOIQ 


QG@QOQOQGOIQOIQ 


Q@QOQOGOQOIQODS 


spares 


vdh 


AVAIL 


errors: No_ known data _ errors 


提 mkdir -pP /mnt/zpool/hilton 


# zfs set mountpoint=/mnt/zpool/hilton hilton 


df -h /mnt/zpool/Vhilton/ 


Filesystem SLZe 


Used Avail Use% Mounted on 


hilton 866 


17M 


86G 


1% /mnt/zpool/hilton 


这 里 创建 了 一 个 raidz2 的 zpool， 每 个 磁盘 都 是 30G 的 大 小 ， 
名 为 hilton， 接 下 来 创建 挂 载 点 并 且 导 入 一 些 数据 ， 下 面 来 继续 


看 看 metaslab 的 信息 。 
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代码 2-27 


2、 深 入 理解 鸡 
1. #zdb -m hilton > /tmp/metas1ab.txt 
2. # Cat /tmp/metas1ab.txt 
3 
4 
5._ Metaslabs : 
6. vdev 6 
起 metaslabs 149 offset spacemap free 
人 
9. metas1lab 8 offset 9 spacemap 81 “free 996M 
10.，space map _ object 81: 
旭 ， Smp_length = _ 69x568 
12: Smp_alloc = 6x1bc6666 
13._metaslab 1 offset 46666668 “spacemap 86 free 16922M 
14.，space map _ object 86: 
悦 。 Smp_length = 6x598 
16. Smp_alloc = 6x196866 
17._metaslab 2 offset 8668686666 “spacemap 79 ”free 895M 
18. space map obJject 79 : 
19. Smp_length = _6x498 
20. Smp_alloc = _6x817f266 
21. metaslab 3 offset C6666668 spacemap 78 free 1624M 
22.，space map _ object 78 : 
23. Smp_length = 9x446 
24. Smp_alloc = 6Xx49e66 
25. metaslab 4 offset 166666666 spacemap 77 free 995M 
26. space map _ object 77: 
业 7。 Smp_length = 6x488 
28. Smp_alloc = 6x1d6ca66 
29.__metaslab 5 offset 1468666666 spacemap 76 free 1924M 
30.， space map obJject 76 : 
3 引 .。 Smp_length = _6x466 
32. Smp_alloc = 0x45666 
33. metaslab 6 offset 186666666 “spacemap 75 “free 995M 
34.，Sspace _ map object 75 : 
35. Smp_length = 9x568 
36. Smp_alloc = 6x1d1ae66 
37. metaslab 7 offset 1c6666666 spacemap 74 free 1624M 
38. space map obJject 74: 
39. Smp_length = 6x4e8 
40. Smp_alloc = _6x4fe66 
41. metaslab 8 offset 2066868666 spacemap 73 free 1924M 
42.， space map obJject 73 : 
43. Smp_length = 6x578 
44. Smp_alloc = 9x1c866 
45. metaslab 9 _offset 246666666 “spacemap 9 free 1G 
46. metaslab 19 offset 286666668 “spacemap 9 _ free 1G 
47. metaslab 11 offset 2c6688668 ”spacemap 6 free 16 
085 
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人 、 深入 理解 文件 系统 原理 和 实践 


48. metaslab 12 offset 366666668 “spacemap 9 free 1G 
49.__metaslab 13 offset 3466666686 spacemap 6 _ free 1G 
NE 

51._metaslab 146 _offset 2486666668 spacemap 9 free 1G 
52. metaslab 147 offset 24c6666668 spacemap 6 _ free 16 
53. metaslab 148 offset 2566666666 “spacemap 9 free 1G 


代码 2-28 


通过 zdb， 这 里 可 以 看 到 metaslab 有 148 个 ， 并 不 是 所 有 的 
metaslab 都 在 使 用 ， 当 数据 越 来 越 多 的 时 候 ， 后 面 的 metaslab 才 


会 有 数据 写 人 。 
1._ ~*# zdb -h_ hilton 
仑 
3._History : 
4 _ 2622-68-67.14:64:66 zpool create hilton_ raidz2 vdc vdd vde vdf vdg spare vdh 
5 2622-68-67.14:69:56 zfs _ set mountpoint=/mnt/zpool/hilton hilton 
代码 2-29 
这 里 还 可 以 使 用 zdb -h 命令 来 查看 zpool 相关 的 操作 记录 。 
1 *# zdb -mmm hilton 
人 
3._Metas1labs : 
4. vdev 9 
9 metaslabs “149 offset spacemap free 
6. ， --------------- ， ------------------- ， --------------- ， ------------ 
人 metaslab 6 _ offset @_ _spacemap 81 free 996M 
8. segments 17 “maxsize “996M freepct 970% 
9. In-memory histogram: 
民 13: 二 
12 14: ns 
13 5: zs 
14 16 : 下 
15 17 : 9 
16 18 : 
17. 19 : 6 
18. 
19 29: 下 


2、 深 入 理解 鸡 

20. on-disk histogram: fragmentation 6 
21. 1 下 :学 
23. 13 0 
25. 15 世 
26. 16 9 
27. 17 9 
28. 六 
29. 29 : 业 学 
30. 

代码 2-30 


这 里 可 以 使 用 zdbh -mm 来 输出 更 加 详细 的 信息 ， 其 还 包括 
了 与 碎片 化 相关 的 内 容 ， 因 为 难 的 block size 分 配 是 动态 的 ， 
这 里 提 到 的 mm-memory histogram 中 的 数字 ， 如 12 则 是 2 的 12 
次 方 ， 也 就 是 4096， 也 就 是 4KB 大 小 ， 这 里 有 6 次 分 配 。 

这 里 需要 注意 的 是 spacemap 的 大 小 默认 是 4KB 大 小 (早期 
版 本 ， 目 前 已 经 更 改 为 128KB， 为 了 适 配 大 磁盘 ， 该 大 小 不 影 
响 理 解 )， 前 面 提 到 的 不 同 区 间 大 小 ， 其 是 用 户 数据 文件 大 小 ， 
而 spacemap 是 内 部 空间 管理 使 用 的 ， 因 此 二 者 是 不 同 的 。 

4KB 大 小 的 spacemap， 在 较 大 的 磁盘 中 ， 如 10TB 的 磁 
盘 ， 如 果 频 繁 有 读 写 申请 ， 那 么 spacemap 记录 有 很 多 ， 同 时 
对 每 个 4KB 的 内 容 进 行 读 取 ， 也 需要 耗费 很 多 时 间 。 因 此 为 了 
减少 spacemap 的 数量 ， 对 metaslab 的 大 小 做 了 调整 ， 通 过 减少 
metaslab 的 数量 ， 可 以 进一步 减少 spacemap 的 数量 。 也 就 是 上 
面 看 到 的 ， 每 个 metaslab 管理 的 区 间 为 1CB， 更 早 版 本 的 xf 中 
metaslab 的 管理 区 间 大 小 是 以 MB 为 单位 的 。 
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深入 理解 文件 系统 原理 和 实践 


2.7 zfs 校 验 码 


为 了 保护 数据 的 完整 性 ， 每 次 在 写 人 磁盘 之 前 ， 都 会 对 数 
据 进 行 校 验 ， 而 这 个 校 验 的 结果 就 是 checksum， 其 使 用 的 算法 
可 以 有 很 多 ， 稼 见 的 有 sha256 和 md5， 而 这 些 数据 块 校 验 结果 
的 存放 ，z& 有 一 个 独特 的 设计 ， 会 把 结果 存放 在 指向 该 数据 块 
的 间接 块 里 ， 如 图 2-15 所 示 。 


名 2-15 

zfs 的 独特 设计 就 是 会 把 checksum 的 计算 结果 存放 在 指向 
该 叶子 节点 的 间接 节点 上 ， 而 根 节点 的 计算 结果 则 存放 在 自 续 
上 面 。 这 种 设计 的 好 处 是 什么 呢 ? 首先 如 果 不 存放 在 这 里 的 
话 ， 那 么 其 他 的 文件 系统 是 如 何 设 计 的 呢 ? 有 些 会 专门 弄 一 个 
checksum file 单独 存放 ， 如 果 要 校 验 ， 则 会 进行 相对 多 一 次 的 访 
问 了 ， 并 且 重 新 生成 一 个 新 的 文件 ， 该 文件 的 管理 也 是 一 个 闭 
的 问题 。 而 zx 的 这 种 巧妙 设计 的 好 处 为 , 除了 减少 了 一 个 文件 ， 
在 文件 自修 复 的 过 程 中 也 是 有 非常 大 的 作用 的 在 一 些 文件 系统 
里 面 ， 还 有 一 个 叫 作 merkle tee 的 概念 ，merkle tree 的 出 现 ， 是 
在 网 络 传输 的 过 程 中 ， 会 把 一 个 数据 切 成 多 个 小 的 数据 块 再 进 
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2、 深 入 理解 下 


行 传输 ， 那 么 就 需要 计算 这 些 不 同 的 小 块 的 checksum 了 ， 再 得 
到 一 个 最 终 的 整体 文件 的 checksum。 

这 个 概念 和 文件 系统 有 什么 关联 呢 ? 在 文件 系统 里 面 ， 叶 
子 节 点 就 是 数据 块 ， 正 党 的 一 个 文件 ， 如 何 快速 知道 是 否 有 损 
坏 呢 ?7 如 果 是 镜像 存储 池 ， 如 何 快速 对 比 两 个 文件 是 否 相 同 
呢 ? 这 里 如 果 全 部 计算 叶子 节点 的 checksum 的 话 ， 速 度 就 比 
较 慢 了 ， 一 个 比较 有 效率 的 方式 是 对 间接 节点 指向 的 叶子 节 
点 的 checksum 进行 再 次 计算 checksum， 得 到 一 个 叫 作 merkle 
checksum 的 结果 ， 这 样 的 话 ， 因 此 要 对 比 文件 是 否 相 同 ， 先 比 
较 根 节点 是 否 相 同 ， 不 相同 再 对 比 下 面 的 间接 节点 ， 这 样 一 层 
层 对 比 ， 就 可 以 减少 很 多 的 计算 了 ， 速 度 也 快 很 多 。 

对 于 其 他 的 文件 系统 来 疯 ， 例 如 phfs 中 ，chcksum 是 有 一 颗 
单独 的 树 来 进行 保存 结果 的 ， 叫 作 checksum tree， 该 设计 和 zs 
是 不 同 的 ， 大 家 感 兴趣 的 话 可 以 对 比 着 学 习 二 者 设计 的 不 同 。 品 


2.8 zfs 缓存 概念 理解 


前 面 提 到 了 xs 存储 池 /空间 管理 Metaslab 这 些 内 容 ， 现 在 
用 一 张 详细 的 难 架构 图 来 理解 和 认识 一 下 ZFS 的 不 同 模块 和 整 
体 架 构图 特点 ， 如 图 2-16 所 示 。 

对 于 鸡 来 说 ， 对 外 是 提供 ZPL 和 ZVOL 的 ， 前 者 就 和 正常 
文件 系统 使 用 一 样 ， 在 准 中 可 以 创建 一 个 dataset ( 数据 集 ) 进 
行 挂 载 使 用 ， 而 zrol 则 是 一 个 块 设 备 ， 可 以 使 用 iscsi 提供 给 朱 
端的 程序 使 用 。 在 生产 环境 中 ，kg8s 的 后 端 pve 就 可 以 使 用 xfs 
提供 的 zvrol 块 设备 进行 数据 落 盘 持久 化 。 
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深入 理解 文件 系统 原理 和 实践 


1SCsSI FC 


SCSl target 


NFS SMB 


VFS 
ZpL ZVGL 

FileSsystem (ZFS POSIX Layen) (ZFs Volume) 
-也 过 


Atomic transactions 
on objects 


DMU 
(Data Management Unit) ZFs 


Block allocation 
~ 
Write, read 


SPA 
(Storage Pool Allocaton) 


Volume Manage 


到 2-16 zfs 架构 区 


2.8.1 ARC 和 L2ARC 


在 文件 系统 中 ,不 管 是 z 难 还 是 extd， 都 要 经 过 VFS， 再 进 
入 各 自 的 文件 系统 中 处 理 ， 那 么 在 读 写 数据 的 时 候 ， 有 一 个 重 
要 的 东西 叫 作 page cache， 这 个 是 Linux 系统 的 缓存 。 而 在 zt 
中 有 一 个 类 似 的 模块 叫 作 ARC 和 L2ARC。 不 管 是 page cache 还 
是 ARC， 本 质 上 都 是 LRU 队列 ， 也 就 是 先进 先 出 队列 。ARcC 的 
英文 是 Adaptive Replacement Cache， 自动 调节 的 可 替代 的 绥 存 。 

有 了 page cache 之 后 ， 当 需要 从 磁盘 读 取 数 据 的 时 候 ， 可 以 
把 数据 放 在 缓存 中 ， 也 就 是 内 存 里 面 ， 这 样 可 以 加 速 读 取 文 件 
的 速度 ， 尤 其 是 文件 需要 预 读 的 时 候 ， 也 就 是 当 打 开 一 个 新 的 
文件 ， 文 件 系 统 可 能 会 根据 需要 读 取 文件 的 区 间 ， 把 后 面 的 内 
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2、 深 入 理解 下 


容 也 提前 加 载 一 下 ， 这 样 可 加 快 下 一 次 的 读 取 ， 文 件 预 读 的 策 
略 对 于 大 文件 的 读 取 是 非常 有 效 的 。 

zf 的 ARC 设计 是 两 个 队列 ， 分 别 是 数据 最 近 使 用 队列 
(CMRU ) 和 最 近 频 繁 使 用 队列 (MFU )。 这 里 为 什么 需要 两 个 队 
列 呢 ? 可 以 考虑 一 个 场景 ， 当 晚上 或 者 某 个 时 间 内 需要 对 数据 
做 备份 时 ， 这 时 候 需 要 进行 全 盘 扫描 或 者 扫描 存储 池内 大 量 的 
文件 然后 加 载 到 缓存 中 ， 接 着 发 送 给 备份 节点 或 者 第 三 方 的 系 
统 。 如 果 只 有 一 个 队列 ， 也 就 是 MRU， 那 么 在 扫 撕 时 ， 大 量 的 
文件 数据 ， 会 冲刷 掉 其 他 正常 读 写 的 数据 ， 会 造成 缓存 丢失 ， 
造成 其 他 正常 读 写 请 求 的 性 能 大 幅度 下 降 旦 不 稳定 ， 这 种 情况 
被 称 为 缓存 置换 ( cache thrashing )。 因 此 为 了 避免 这 种 情况 出 
现 ， 对 于 那些 在 缓存 中 需要 多 次 读 写 的 数据 ， 会 加 载 到 MEU 队 
列 中 ， 这 时 候 后 台 的 定时 扫描 备份 任务 ， 也 不 会 影响 到 正常 的 
任务 执行 。 

既然 涉及 缓存 ， 其 必然 会 有 调整 缓存 大 小 的 相关 参数 ， 这 
里 比较 常用 的 就 是 设置 最 大 和 最 小 值 了 。 对 于 小 于 4GB 的 系统 ， 
这 里 一 般 是 不 建议 进行 调整 的 ， 因 为 内 存 太 小 了 。 而 大 于 4GB 
的 ， 默 认 是 1CB 大 小 的 缓存 。 当 然 具 体 的 参数 可 以 看 配置 文件 
数值 。 


1. # cat /proc/spl/kstat/zfs/arcstats |grep < 

2. <c_min 4 128832666 
3 cC_max 4 2661312666 
4. arc_no_grow 4 9 

5._ arc_tempreserve 4 9 

6._ arc_loaned_bytes 4 9 
7._arc_prune 4 9 

8. arc_meta_used 4 1228584 

9._ arc_meta_1imit 4 1545984666 
10.， arc_dnode_]Limit 4 154598466 
11.， arc_meta_max 4 4263256 
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12.，arc_meta_min 16777216 
13.async_upgrade_sync 6 


15$.，arc_sys_free 64416666 


16.，arc_raw_size 9 


4 
4 

14.， arc_need free 4 9 
4 
4 
1 


代码 2-3 


上 面 显示 的 c_min 和 ec_max 的 数值 是 以 byte 为 单位 的 ， 如 
果 想 要 修改 对 应 的 大 小 ， 可 以 修改 配置 文件 /ete/modprobe.d/zfs. 
conf 的 配置 。 

前 面 提 到 了 ARC 是 用 于 缓存 文件 数据 的 ， 那 么 其 缓存 文件 
的 什么 数据 呢 ? 是 文件 元 数据 还 是 读 写 数 据 呢 ? 这 里 也 是 可 以 
进行 调整 的 ， 在 创建 数据 集 时 ， 指 定 只 缓存 文件 的 元 数据 信息 ， 
如 下 所 示 。 


# _Zpool status 


pool: hilton_raidz2 


State: ONLINE 


1 
2 
3 
4._config: 
5 
6 
芝 
8 


NAME STATE READ WRITE _CKSUM 
hilton_raidz2 ONLINE 9 9 9 
: raidz2-6 ONLINE 9 0 9 
9. Vvdc ONLINE 9 9 9 
10. vdd ONLINE 9 9 9 
外 1 vde ONLINE 9 9 9 
人 志 2 
13.，errors: No known data errors 
14. 
15.，## mkdir -p /mnt/hilton_raidz2 
16. 


17. ## zfs set mountpoint=/mnt/Vhilton_raidz2 hilton_raidz2 


19. # zfs _ create -0 _primarycache=metadata _ hilton_raidz2/test1 


20. # zfs 1ist 


21.NAME USED _AVAIL REFER _MOUNTPOINT 
22.，hilton raidz2 136K 28.86G 23.9K /mnt/hilton raidz2 
23. 
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24. hilton_ raidz2/test1 23.9K 28.8G6 ”23.9K /mnt/hilton raidz2/test1 


26. # zfs get primarycache hilton_raidz2/test1 


27.NAME PROPERTY VALUE SOURCE 
28.，hilton_raidz2/test1 _primarycache _metadata 1ocal 
代码 2-32 


什么 场景 下 可 以 考虑 使 用 只 缓存 文件 元 数据 的 策略 呢 ? 对 
于 一 些 冷 数据 的 节点 ， 读 取 数 据 的 概率 非常 小 ， 因 此 没有 必要 
把 数据 读 取 到 缓存 中 ， 但 是 可 能 需要 对 读 取 文件 的 元 数据 进行 
校 验 ， 同 时 也 可 以 加 快 ls 等 命令 操作 的 速度 。 当 然 ， 只 缓存 元 
数据 还 可 以 缓存 非常 多 的 文件 元 数据 。 文 件 元 数据 的 大 小 是 固 
定 的 ， 再 根据 缓存 大 小 ， 就 可 以 大 概 计算 出 可 以 缓存 的 文件 元 
数据 数量 。 

zfs 的 缓存 里 面 ， 除 了 ARC， 还 有 一 个 东西 叫 作 L2ARC。 
L2ARC 的 出 现 其 实 也 是 为 了 解决 当 ARC 缓存 数据 太 多 ， 导 致 一 
部 分 缓存 数据 需要 被 置换 落 盘 时 , 找到 一 个 地 方 来 放置 这 些 “ 洪 
出 ”的 缓存 ,这 个 原理 和 swap 是 类 似 的 。 因 此 从 这 里 可 以 知道 ， 
只 有 被 ARC 缓存 过 的 内 容 ， 才 会 被 置换 到 L2ARC 中 ， 所 以 前 
面 的 ARC 设置 了 只 缓存 元 数据 信息 ，L2ARC 虽然 按照 默认 缓存 
所 有 的 内 容 ， 但 是 实际 上 并 不 会 有 其 他 的 内 容 会 置换 到 L2ARC 
中 的 ， 如 下 所 示 的 设置 。 


1._ *# zfs _ get _ primarycache,secondarycache _ hilton_raidz2/test1 

2. _NAME PROPERTY VALUE SOURCE 

3._hilton_raidz2/test1 _primarycache metadata 1ocal 

4._ hilton_raidz2/test1 _ secondarycache al1 defau]t 
代码 2-33 


这 里 还 有 一 个 小 的 知识 点 值得 留意 一 下 ， 一 般 来 说 ，ARC 
的 设计 不 只 是 在 文件 系统 中 有 ， 在 数据 库 中 也 是 存在 的 ， 而 且 
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也 是 两 个 队列 的 设计 ， 那 么 对 于 两 个 队列 的 容量 比例 的 划分 ， 
通常 有 对 半 均 分 , 也 有 用 3 :7 来 进行 拆 分 的 , 而 难 在 这 一 点 上 ， 
相对 灵活 一 点 ， 可 以 根据 工作 负载 来 微调 比例 ， 只 要 没有 达到 
其 上 下 限 ， 那 么 MRU 和 MFU 队列 的 大 小 是 弹性 的 ， 当 然 一 开 
台 默 认 比 例 也 是 对 半 均 分 的 。 当 然 如 果 系 统 内 存 使 用 很 紧张 的 
时 候 ， 那 么 缓存 的 容量 也 是 会 减少 的 。 同 时 在 MRU 和 MFU 中 ， 
都 有 一 个 ghost 列表 ， 该 列表 主要 就 是 记录 各 自 队 列 缓存 要 淘汰 
的 页 面 信息 。 


2.9 zfs 缓存 实现 


前 面 提 到 了 are 和 12arc 的 内 容 ， 但 是 还 有 一 些 内 容 是 值得 
关注 的 ， 如 果 缓 存 数 据 被 替换 到 了 12arc 中 ,， 且 arc 里 面 并 没有 
的 话 ， 那 么 读 取 数 据 的 时 候 ， 该 如 何 知 道 缓存 是 否 在 12arc 呢 ? 
还 有 zf 为 了 优化 内 存 的 使 用 率 ， 做 了 一 些 怎样 的 优化 呢 ? 这 些 
内 容 也 是 本 小 节 关 注 的 点 。 


Hash Table 


图 2-17 
当 要 读 取 数据 缓存 的 时 候 ， 需 要 先 申 请 一 个 缓存 的 头 部 信 
息 ， 也 就 是 arc_buf hdrt 结构 体 ， 该 结构 体 的 信息 会 和 Hash 
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Table 关联 ， 其 中 主要 以 spa，dva 和 birth time 来 进行 区 分 ， 其 
中 birth time 是 该 缓存 数据 的 txg 信息 。 在 后 面 有 读 的 请 求 过 来 
的 时 候 ， 也 是 会 查询 哈 希 表 中 是 否 有 数据 。 

而 每 个 arce_buf_ hdr t 结构 后 面 是 关联 着 arc_puf t 结 构 ， 这 
就 是 直接 指向 数据 的 结构 体 ， 每 个 are_buf_t 可 以 看 成 一 份 数据 ， 
以 此 来 组 成 一 个 链 式 表 。 同 时 可 以 从 图 2-17 中 看 到 ， 每 个 arc 
头 部 结构 体 可 能 会 指向 多 个 arc buffer 结构 (arc_buf t )， 这 是 有 
可 能 因为 读 取 的 数据 是 来 源 于 不 同 的 dataset， 例 如 快照 或 者 克 
隆 的 数据 。 

同时 在 z8 中 ， 为 了 节省 内 存 的 使 用 率 ， 一 般 来 说 在 不 同 的 
操作 系统 中 ， 都 会 有 缓存 压缩 的 功能 ， 通 党 的 做 法 则 是 把 要 淘 
汰 出 缓存 的 数据 进行 压缩 ， 然 后 放 到 swap 中 交换 出 去 。 这 里 就 
有 一 个 问题 了 ， 压 缩 后 的 数据 大 小 可 能 是 会 改变 的 (有 时 候 不 
一 定 会 改变 ， 也 就 是 压缩 并 没有 起 作用 ， 对 于 一 些 视频 ， 压 缩 
效果 不 明显 )。 这 里 就 有 两 个 字段 就 可 以 起 到 作用 了 ， 也 就 是 会 
用 两 个 字段 来 分 别 记 录 压 缩 前 后 的 数据 大 小 。 当 然 难 的 arc 压 
缩 功能 开启 ， 可 以 通过 设置 字段 zs_compressed_arc_enabled 来 
进行 控制 。 


1._ struct arc_buf_hdr 
2 Uint16 七 _b_psizey; 
每 Uint16 七 b 1size; 
4. 二 
5 } 
代码 2-34 


如 果 这 个 时 候 数据 被 转移 到 了 12arc 中 ， 并 且 arc 中 的 缓存 
数据 被 清理 了 ,那么 该 如 何 知道 该 数据 是 否 在 12arc 呢 ? 在 arc_ 
puf_hdr t 结构 体 中 有 一 个 字段 2arce_buf_ hdr ti 则 是 用 于 此 地 。 

zf 的 arc 几 种 状态 ， 也 就 arc_state_type_t 的 字段 所 示 。 
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typedef enum arc_state_type 1{ 


ARC_STATE_ANON， 


ARC_STATE_MRU， 


ARC_STATE_MRU_GHOST， 


ARC_STATE_MFU， 


ARC_STATE_MFU_GHOST， 


ARC_STATE_L2C_ONLY， 


ARC_STATE_NUMTYPES 


渴 | 贸 沿革 了 陆 本 | 区 必 革 


} arc_state type 七; 


代码 2-35 


这 里 带 有 ghost 的 则 对 应 的 是 列表 的 ghost list 中 的 数据 ， 这 
一 点 在 前 面 已 经 提 到 过 。 而 ANON 则 是 由 一 些 还 没 写 入 磁盘 中 
的 数据 复制 的 。 在 鸡 中 如 果 是 L2C_ONLY 的 话 ， 那 么 arc_buf_ 
hdr t 结构 体 是 会 有 一 些 变化 的 ， 主 要 就 是 llare_buf hdqr t 这 
字段 将 不 再 需要 了 ， 这 一 点 可 以 具体 查看 arc_implh 文件 。 

最 后 关于 缓存 压缩 的 实现 ， 在 zf 中 是 允许 压缩 和 未 压缩 的 
数据 同时 存在 的 ， 这 里 的 结构 示意 图 如 图 2-18 所 示 。 


Hash Table arc_buf_hdr ft 


<spa dva birth> 


l2arc_buf_hdr t 


arc_buf_t arc_buf ft 
lzarc_buf_hdr t 


一 人 UTCOmDressed data 
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当然 关于 xz 的 are 实现 还 有 很 多 细节 的 ， 如 果 感 兴趣 的 话 ， 
可 以 查看 源码 arc.e 文件 ， 其 中 会 提 到 与 缓存 的 锁 模 型 相关 的 内 
容 ， 这 些 也 是 值得 慢 慢 研究 的 。 

最 后 可 以 留意 glusterfs 在 使 用 openzfs 的 时 候 ， 推 荐 的 一 些 
设置 配置 ， 主 要 就 是 开启 了 compress 和 arc 参数 设置 ， 具 体 的 
情况 可 以 参考 文档 。 


2.10 zfs zi 


在 z 中 ， 除 了 读 取 数据 是 有 缓存 的 ， 写 人 数据 也 是 有 缓存 
的 ， 这 里 就 是 和 xz Ptent Log (ZIL ) 有 关 了 。 这 里 需要 留意 一 
下 ZL 和 SLOG 的 区 别 , 在 难 中 ，ZLL 是 一 种 机 制 ， 而 SLOG 
则 是 一 种 设备 ， 也 就 是 说 SLOG 是 可 选 的 ， 并 不 是 必需 的 ， 但 
是 ZI 则 是 默认 的 。 在 存储 池 中 如 果 没 有 单独 设置 SLOG 设备 
时 ，2ZI 机 制 也 是 存在 的 ， 会 在 存储 池 中 划分 一 部 分 空间 出 来 进 
行 处 理 。 


file system file system 


名 2-19 

图 2-19 中 的 左 侧 部 分 ， 就 是 设置 了 SLOG 设备 的 情况 ， 而 
右 侧 则 是 默认 没有 设置 。 那 么 ZLL 是 做 些 什么 的 呢 ? ZIL 会 在 
spa_sync 调用 之 前 ， 对 要 操作 的 数据 的 日 志 信 息 进 行 落 盘 ,来 保 
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证 后 续 的 事务 执行 出 错 后 能 够 重 放 。spa_syne 则 是 进行 事务 的 数 
据 落 盘 操作 。 

对 于 写 人 请求 中 的 数据 ， 前 面 提 到 过 的 并 不 是 马上 就 写 人 
存储 设备 的 ， 即 不 会 马上 持久 化 ， 而 是 会 对 数据 在 内 存 中 的 组 
存 进行 修改 ， 只 有 等 待 一 定时 间 ， 如 几 秘 或 者 累积 的 数据 量 达 
到 一 定 程 度 以 后 ， 后 台 就 会 自动 刷新 对 缓存 中 的 数据 进行 落 盘 ， 
这 个 就 是 异步 写 的 过 程 (write back )。 而 数据 落 盘 的 过 程 ， 在 zfs 
中 是 通过 事务 组 (transaction group ) 来 实现 的 。 因 此 这 里 引出 
一 个 容易 被 弄 混 靖 的 内 容 ， 平 时 我 们 常见 的 一 些 系 统 调 用 ， 如 
write 并 不 会 保证 数据 一 定 是 落 盘 的 ，warite 返回 成 功 ， 往 往 数据 
只 是 写 和 人 缓存 中 就 立刻 返回 了 。 

有 些 应 用 系统 为 了 保证 重要 数据 的 安全 ， 并 不 会 采用 后 台 
异步 数据 提交 落 盘 的 方式 ， 而 是 会 选择 同步 等 待 的 方式 来 保证 
数据 写 和 人 信息 落 盘 。 如 调用 fsync 这 个 命令 ， 则 是 一 种 同步 等 
竺 数据 操作 信息 刷新 持久 化 的 请 求 ， 这 样 做 会 导致 性 能 非常 差 。 
因此 为 了 解决 这 种 问题 ，ZFS 为 了 提升 性 能 ， 有 一 个 设备 叫 作 
SLOG (Separate Intent Log )， 使 用 固态 来 加 速 性 能 ， 这 些 内容 都 
可 以 在 创建 zpool 的 时 候 进 行 指定 。 因 此 使 用 SLOG 设备 ， 是 为 
了 进一步 提升 ZIL 的 性 能 。 

这 里 也 需要 留意 一 个 细节 ，fsynec 函数 的 作用 是 对 文件 在 组 
存 中 的 被 修改 过 的 数据 进行 落 盘 ， 也 就 是 说 ，fsyne 并 不 像 写 请 
求 那样 会 对 缓存 数据 进行 更 改 ， 只 是 发 起 一 个 脏 数 据 的 刷新 落 
盘 动 作 。 

这 里 简单 总 结 一 下 ， 通 党 来 说 文件 的 数据 持久 化 是 异步 的 ， 
但 是 数据 修改 的 日 志 记 录 落 盘 ， 一 般 都 是 同步 等 待 的 ， 只 有 这 
样 ， 才 能 保证 操作 记录 不 丢失 。 如 删除 文件 时 ， 可 以 先 记 录 一 
下 删除 文件 的 元 信息 ， 把 该 日 志 信息 持久 化 到 磁盘 中 ， 接 下 来 
在 后 台 异 步 删除 文 件数 据 ， 这 也 是 保证 事务 原子 性 执行 的 必要 。 
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2、 深 入 理解 下 


ZIL 既然 是 与 日 志 有 关 的 ， 那 么 其 到 底 与 dataset 的 关系 是 
怎样 的 呢 ? 如 岁 2-20 所 示 。 


uberblock 


ZIL header Dataset Dataset 


ZIL header 


名 2-20 

每 一 个 dataset 都 会 关联 一 个 单独 的 ZIL_header 结构 ， 这 个 
结构 是 该 Dataset 的 日 志 的 头 部 ， 而 每 个 ZIL_header 结构 则 是 用 
于 管理 log 日 志 项 的 ， 而 lwb (log write block ) 就 是 每 一 个 日 志 
项 记录 ， 用 于 记录 操作 的 相关 信息 ， 在 z 中 则 是 用 lwb 结构 来 
进行 表示 的 。 

接 下 来 我 们 来 看 看 ZL 的 函数 调用 链 。 下 面 从 一 次 正 稼 的 
zfs_write 调用 请 求 开 始 ， 对 于 xf_write 来 说 ， 这 里 会 调用 xf 
log_write， 然后 会 调用 zil_itx_create 和 Zil_itx_asslon ， 最 后 再 调 
用 zil_commit， 关 系 如 下 所 示 。 


1]. 1.zfs_write -> zfs_1og_write 
2 xzfe-1ogoWPite 

3. -> zil_itx_create 

4 -> zil_itx_assign 

5. 3.zfs_write > Zi1_commit 


代码 2-36 
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其 中 了 il_itx_create 会 在 内 存 中 创建 一 个 证 结构 ， 该 结构 
是 与 ZL 的 日 志 落 盘 相 关 的 ， 其 中 区 则 是 事务 transaction 的 缩 
写 。zil_itx_assign 则 是 会 把 itx 放 在 itxs 的 队列 中 (itxs 是 ZIL 的 
事务 列表 ， 用 来 记录 需要 落 盘 的 日 志 事 务 )。 最 后 则 是 调用 zil_ 
commit 进行 提交 事务 处 理 。 

这 里 zl_commit 的 步 又 又 有 哪些 呢 ?7 下 面 来 简单 描述 一 下 。 

(1 ) 找到 相同 文件 对 象 的 异步 itx 一 起 放 到 同步 事务 队列 中 。 

(2 ) 对 执行 队列 中 的 事务 进行 落 盘 。 

(3 ) 等 待 事务 落 盘 完 成 。 

(4) 刷新 磁盘 信息 。 

(5 ) 通知 消息 线程 。 

对 于 第 一 点 ， 通 党 写 和 人 数据 时 都 是 异步 的 ， 而 调用 了 fsynec 
这 些 请 求 之 后 ， 则 需要 一 起 提交 缓存 中 的 还 没 刷新 同步 的 脏 数 
据 ， 这 时 候 就 可 以 把 同一 个 文件 的 一 些 异 步 的 请 求 转换 成 同步 请 
求 了 ， 也 就 是 有 可 能 在 刷新 周期 还 没 到 期 限时 ， 就 进行 持久 化 落 
盘 了 。 

最 后 我 们 再 来 了 解 一 下 lwb 中 的 内 容 到 底 是 什么 。lwb 在 蕉 
中 有 一 个 对 应 的 结构 叫 作 ziog t， 接 着 其 中 有 一 个 结构 叫 作 zi_ 


header t， 如 下 所 示 。 


1._ struct zilog 1 

kmutex 七 Z1_1lock; 

struct ds1_pool *zl1_ dmu_pool; 
Spa 七 *z]_ spaj 

Const zil_header 七 *z1_header; 
lwb L *z]l_ last_ lwb_opened; 


名 测 | 本 | 吕 | 本 多 了 


代码 2-37 


其 中 zL_header 就 是 每 个 日 志 的 开头 ， 同 时 日 志 结构 也 是 一 
个 链表 形式 ， 在 header 后 面 会 关联 很 多 具体 的 日 志 信息 ， 例 如 
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2、 深 入 理解 球 


创建 、 写 和 人 、truncate 和 attr、 链 接 文件 等 不 同类 型 操作 都 有 对 
应 的 日 志 类 型 ， 如 lr attr t、l_ create t、lr_ link t、T write t 等 ， 
对 于 这 些 不 同 操作 类 型 的 日 志 结 构 字 段 差 异 ， 感 兴趣 的 可 自行 
阅读 zilh 文件 具体 查看 。 


2.11 zfs 事务 组 


前 面 已 经 介绍 了 dnode 结构 、 空 间 管 理 metaslab， 还 有 缓存 
的 内 容 ， 当 文件 被 修改 之 后 ， 不 管 是 同步 写 还 是 异步 写 ， 都 要 
进行 数据 落 盘 ， 这 个 过 程 就 涉及 了 事务 组 (transaction group， 简 
称 kg )， 在 介绍 txg 之 前 ， 先 来 简单 梳理 一 下 文件 数据 的 读 写 流 ， 
还 有 其 中 经 过 的 过 程 等 。 


NFS SMB Leeai Iscsl FC 
Files 


ZPL 
(ZFS POSIX Layen (ZFS Volume) 


DMU 
(Data Management Unit) 


G@) 


(storage Pool Allocatom) 


Block Interface 


图 2-21 
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自 上 而 下 ， 不 管 文件 的 数据 是 在 ZPL 还 是 在 ZVOL 中 得 到 
的 ， 二 者 只 是 来 源 不 同 ， 但 是 要 实现 的 语义 大 部 分 是 相似 的 ， 
对 于 文件 来 说 ， 正 党 的 读 写 请 求 和 数据 经 过 ZPL 或 ZVOL 后 ， 
会 进入 DMU 模块 进行 处 理 ， 这 里 会 对 文件 的 请 求 进行 解析 和 处 
理 ， 对 于 异步 写 请 求 ， 会 先 写 人 缓存 中 ， 等 到 了 轮转 时 间 周 期 ， 
再 一 次 性 把 缓存 的 数据 落 盘 。 而 在 写 和 人 缓存 的 时 候 ， 这 里 会 更 
新 缓存 的 数据 ， 对 于 初次 打开 的 文件 ， 被 改写 的 缓存 数据 会 置 
为 dirty， 也 就 是 脏 数 据 ， 表 示 缓 存 中 的 数据 与 磁盘 中 的 数据 是 
不 一 致 的 。 这 就 是 第 一 和 第 二 步 的 操作 。 

这 里 有 一 个 细节 值得 关注 一 下 ， 就 是 当 数 据 被 改写 的 时 候 ， 
zfs 因为 是 copy on write 的 机 制 ， 并 不 会 直接 改写 缓存 中 的 原始 
数据 ， 而 是 会 写 入 一 个 新 的 地 址 空间 中 ， 然 后 对 父 节点 层 层 往 
上 更 新 信息 ， 包 括 重 新 计算 校 验 值 merkle_checcksum， 还 有 修改 
文件 的 元 信息 ， 包 括 大 小 等 ， 更 新 到 文件 的 header 重新 指向 新 
的 地 址 。 该 过 程 如 岁 2-22 所 示 。 


header 区 


Level 3 


ne 


| ， 
1 | 

dbuf dbuf ] i dbuf dbuf | 1 copy on write 
| 
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而 在 数据 落 盘 的 过 程 中 ， 需 要 先 计 算 好 每 个 文件 的 脏 数 据 
情况 ， 也 就 是 需要 统计 ， 当 数据 落 盘 时 ， 文 件 有 多 少 新 增 和 删 
除 的 空间 地 址 ， 还 有 需要 对 哪些 数据 进行 计算 校 验 等 。 这 里 新 
增 和 删除 的 空间 地 址 ， 就 涉及 了 sap 的 metaslab 模块 了 ， 还 有 前 
面 提 到 的 space map 相关 内 容 ， 需 要 申请 的 空间 地 址 也 要 进行 落 
盘 记 录 ， 这 就 是 第 三 步 要 考虑 的 内 容 。 

同时 在 数据 落 盘 过 程 中 ， 每 个 文件 的 处 理 都 可 以 看 成 一 个 
事务 ， 当 很 多 文件 都 要 处 理 时 ， 批 量 落 盘 的 文件 数据 都 会 在 当 
前 的 事务 周期 内 进行 处 理 ， 而 这 个 事务 都 会 绑 定 在 一 个 事务 组 
中 ， 也 就 是 记录 好 当前 周期 内 有 多 少 事 务 需 要 进行 处 理 ， 这 个 
就 是 txg 相关 的 内 容 。 而 每 个 txg 都 有 一 个 对 应 的 i， 就 是 txg 
id， 该 数值 类 似 数据 库 的 表 主 键 那样 ， 是 一 个 递增 的 数值 。 

数据 的 落 盘 ， 最 终 都 是 要 提交 给 对 应 的 磁盘 介质 进行 处 理 
的 ,不 管 是 固态 硬盘 还 是 机 械 硬 盘 ， 都 有 对 应 的 驱动 ， 而 文件 
系统 则 会 把 该 请 求 发 给 内 核 的 IO 模块 进行 处 理 ， 这 就 是 图 2-22 
中 的 第 四 步 的 内 容 了 。 

在 xz 中 ， 事 务 组 是 ZFS 对 要 写 和 人 磁盘 的 数据 块 进行 批 处 
理 的 方式 。xzs 中 的 txg 有 三 种 状态 ， 分 别 是 打开 (open )， 静 默 
(quiecsing ) 和 同步 (syncing )， 每 个 状态 有 且 仅 对 应 一 个 txg， 
下 面 分 别 来 讲 讲 这 三 种 状态 的 不 同 。 


2.11.1 Open 


这 个 状态 是 当 一 个 新 的 txg 创建 之 后 进入 的 状态 ， 在 这 个 状 
态 中 妇 会 绑 定 到 txg 中 ， 将 新 事务 (对 内 存 中 结构 的 更 新 ) 分 
配给 当前 打开 的 xg。 这 里 始终 有 一 个 txg 处 于 打开 的 状态 ， 以 
便 ZFS 可 以 接受 新 的 更 改 ( 虽然 txg 可 能 会 拒绝 新 的 变化 ， 如 果 
它 已 经 达到 了 一 些 极限 )。ZFS 将 打开 的 fxg 提前 到 下 一 个 状态 ， 
原因 有 很 多 ， 例 如 它 达 到 了 时 间或 大 小 国 值 ， 或 者 执行 了 必须 
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在 同步 状态 下 完成 的 管理 操作 。 


2.11.2 Quiecsing 


在 txg 退出 open 状态 之 后 ， 会 进入 项 默 (Quiescing ) 状态 。 
静默 状态 的 作用 是 在 接受 了 新 的 tx 之 后 ， 但 是 还 没 真 正 进行 同 
步 的 时 候 提供 一 定 的 时 间 和 缓存 等 待 一 些 tx 的 操作 准备 。 早 
期 设计 的 时 候 ， 是 没有 考虑 过 这 个 状态 的 ， 就 是 只 有 open 和 
syncing 状态 ， 但 是 后 来 增加 了 。 


2.11.3 Syncing 


在 同步 状态 中 的 kg， 这 时 候 就 无 法 接受 新 的 区 请求 了 。 那 
么 这 里 只 有 当 rx 完成 之 后 才 会 退出 该 状态 。 

同时 在 该 阶段 ， 会 处 理 上 一 个 syncing 阶段 的 日 志 ， 从 前 面 
的 提 到 的 内 容 可 以 了 解 ，z 的 空间 管理 是 延迟 释放 的 ， 因 此 在 
当前 的 syncing 对 应 的 txg 中 ， 则 会 释放 前 面 的 syncing 阶段 的 日 
志 数 据 。 


下 面 来 分 享 一 下 具体 在 事务 组 中 的 事务 处 理 流程 ， 下 面 以 
一 个 写 请 求 为 例子 。 

(1) 开启 一 个 DMU 事务 。 

(2 ) 修改 文件 对 象 ， 即 在 缓存 中 对 文件 进行 增删 改 查 处 理 。 

(3) 创建 一 个 ITX 请 求 (intent log transaction )， 即 创 建 对 
应 的 事务 日 志 请 求 来 描述 事务 内 容 ， 其 中 包括 文件 的 偏 移 量 
(o 全 et )， 修 改 内 容 、 修 改 时 间 和 对 应 的 事务 id (txg) 等 信息 ， 
县 体 见 zil itx_create 函数 。 

(4) 将 ITX 分 配给 对 象 集 的 ZIL,， 具 体 见 zil_itx_assign。 

(5) 调用 dmu _tx_commit 提交 完成 文件 事务 ,并且 通 过 回 
调 zi_commit 函数 来 返回 用 户 请 求 。 
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同时 还 要 留意 ， 对 于 数据 的 写 信 有 有 蜡 步 写 和 同步 写 的 区 别 ， 
其 中 同步 写 是 需要 阻塞 等 待 事务 返回 的 ， 而 异步 写 则 是 先 写 和 人 
缓存 中 ， 等 待 数据 累积 到 一 定 阀 值 或 者 时 间 周 期 轮训 的 时 候 进 
行 持久 化 落 盘 。 这 里 不 管 是 异步 写 还 是 同步 写 ， 都 是 要 创建 对 
应 的 DMU 事务 的 。 

对 于 ZI 中 的 日 志 ， 如 果 没 有 单独 设置 SLOG， 也 就 是 没 
有 单独 设置 日 志 盘 ， 则 会 默认 在 数据 盘 中 划分 一 段 空间 来 当 作 
日 志 数据 空间 ， 这 样 处 理 的 原因 是 因为 日 志 数 据 都 是 比较 小 的 ， 
同时 受 限 于 DMU 中 的 脏 数据 设置 的 比例 和 周期 轮转 时 间 ， 当 数 
据 需 要 落 盘 持久 化 的 时 候 ， 所 产生 的 日 志 数 据 并 不 会 很 大 ， 通 
笛 数 十 吉 字 节 大 小 即 可 。 因 为 日 志 数据 很 小 ， 大 频繁 分 配 或 释 
放 ， 会 造成 严重 的 空间 碎片 化 ， 如 果 与 数据 盘 的 数据 空间 混合 
着 使 用 ， 则 会 非常 影响 性 能 且 导 致 磁盘 使 用 达到 一 定 比 例 后 ， 
出 现 无 法 分 配 大 的 连续 空间 问题 ， 因 此 设置 单独 日 志 磁 盘 空 间 
则 可 以 相对 规避 该 问题 。 同 时 还 要 留意 ， 为 了 避免 日 志 数据 出 
现 问题 ， 也 需要 对 日 志 的 数据 进行 校 验 ， 但 是 该 校 验 码 是 保存 
在 自身 的 日 志 数 据 中 的 , 也 即 自 校 验 的 方式 (self-checksuming )。 

这 里 也 同时 产生 了 一 个 新 的 问题 ,日 志 的 提交 是 批量 的 吗 ? 
为 了 解答 该 问题 ， 可 看 图 2-23。 
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uberblock 


图 2-23 

图 2-23 是 结合 了 文件 的 结构 ，dataset 对 应 的 纪 模 块 的 示 
意图 。 当 事务 组 要 更 新 持久 化 数据 时 ， 大 自 下 而 上 的 更 新 ， 会 
更 新 多 个 dataset 中 的 文件 数据 ， 还 有 提交 每 个 文件 对 应 的 弗 日 
志 数 据 ， 最 后 还 要 更 新 uber 空间 。 若 每 个 文件 都 是 单独 提交 的 ， 
即 完 成 了 文件 事务 的 操作 后 ， 单 独 提 交 日 志 并 且 更 新 uber 空间 ， 
则 会 出 现 并 发 冲突 且 效 率 很 慢 。 因 为 从 前 面 的 内 容 可 以 了 解 ， 
每 个 ZL 中 都 有 一 个 header， 每 个 header 下 面 会 有 当前 事务 组 
的 多 个 事务 日 志 数 据 。 单 独 提交 则 会 把 一 个 顺序 写 变 成 了 随机 
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写 和 信 ， 对 于 机 械 盘 来 说 ， 这 样 的 效率 和 延迟 是 非常 不 理想 的 。 
为 了 解决 这 些 问题 ， 就 会 考虑 等 竺 多 个 文件 都 完成 了 数据 提交 
之 后 ， 再 进行 批量 的 日 志 提 交 ， 这 样 就 是 一 个 比较 高 效 的 顺序 
写 。 因 此 对 于 并 的 持久 化 ， 当 每 个 文件 的 事务 完成 后 ， 提 交 日 
志 数 据 给 za 后 就 会 进入 休 眼 等 待 ， 然 后 等 世 进行 批量 提交 日 
志 数 据 再 唤醒 处 理 ， 这 个 就 称 为 ZIL-LWB 的 超时 机 制 。 
当然 这 是 以 前 的 做 法 ， 在 最 新 的 鸡 版 本 中 引入 了 持久 化 内 
存 (pmem )， 因 为 pmem 的 性 能 很 高 ，xzfs 官方 通过 测试 发 现 ， 
大 量 的 时 间 等 待 耗费 在 了 日 志 的 批量 提交 上 面 ， 因 此 也 对 上 述 
过 程 进 行 了 优化 ， 感 兴趣 的 人 可 以 自行 阅读 论文 ZorZeavever 
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2.12 读 请 求 流程 代码 走读 


前 面 一 直 提 到 与 写 请 求 有 关 的 内 容 ， 如 dirty data 和 ZIL， 
而 在 写 和 之前， 需要 先 读 取 数 据 ， 因 此 下 面 来 了 解 一 下 在 xz 中 
读 取 数 据 的 流程 。 本 小 节 的 内 容 是 以 openzfks 中 的 2.1x 代码 为 
例 ， 如 果 后 续 有 变更 ， 建 议 各 位 读者 可 以 根据 commit log 来 回 漳 
调用 过 程 ， 又 或 者 以 未 来 的 最 新 代码 来 自行 调整 理解 。 

本 小 节 内 容 会 涉及 源码 走读 ， 对 于 源码 的 阅读 ， 会 相对 比 
较 枯 燥 且 无 趣 ， 但 是 对 于 理解 了 基本 概念 以 后 ， 深 入 理解 难 是 
非常 有 必要 的 ， 同 时 源码 里 面 会 包含 非常 多 的 处 理 细节 ， 而 细 
节 则 可 以 真正 考验 一 个 系统 的 水 平 。 很 多 时 候 ， 我 们 遇 到 的 很 
多 开源 项 目 ， 在 读 很 多 架构 概念 和 内 容 时 ， 看 起 来 都 是 差不多 
或 者 直观 上 看 不 出 明显 区 别 ， 而 真正 的 差异 ， 往 往 隐藏 在 处 理 
细节 上 面 ， 尤 其 是 对 一 些 极端 情况 的 考虑 ， 还 有 技术 边界 要 考 
虑 清晰 ， 这 是 一 个 优秀 的 系统 所 必需 的 。 

首先 来 了 解 一 下 读 取 数 据 的 入口 ， 也 就 是 zf_read 因数 。 
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[In 七 

2 zfs_read(struct znode *zp，zfs_uio 七 xuio，jint ioflag，cred 七 *cr) 并 

邓 

4. zfs_locked_range tt *lr = zfs_rangelock_enter(&zp->Zz_ 
rangelock， 

9 zfs_uio_offset(uio)，zfs_uio_resid(uio)，RL_READER); 

6. 人 

了 zfs_rangelock_exit(1Lr); 

8 


代码 2-38 


这 里 zfs_read 函数 中 的 参数 znode 封装 了 要 读 取 的 文件 信息 ， 
而 鹤 _uiot 则 是 读 取 的 信息 的 回填 地 址 ， 长 度 等 ，ioflag 是 0_ 
SYNC 标志 。 

对 于 文件 的 读 写 ， 这 里 需要 有 一 个 概念 ， 那 就 是 区 间 锁 
rangelock， 所 谓 区 间 锁 ， 就 是 要 读 写 文件 的 范围 。 对 于 一 个 正名 
的 文件 读 写 ， 三 种 情况 ， 分 别 是 读 、 写 和 追加 。 

而 读 写 通 常 是 不 会 改变 文件 结构 大 小 的 ， 但 是 追加 是 有 可 
能 的 。 ss 也 就 是 说 ， 可 以 把 追加 也 理 
解 为 一 种 特殊 的 写 和 信 请求。 而 读 写 请 求 是 需要 上 锁 的 ， 这 里 读 
取 的 流程 是 使 用 RL_READER， 写 人 是 RL_WRITER， 追 加 则 是 
RL_APPEND ， 可 以 查看 zfs_rangelock_type tt 中 的 字段 。 

这 里 为 什么 需要 加 入 区 间 锁 呢 ? 因为 读 写 是 可 以 并 发 的 ， 
只 要 不 是 对 相同 区 间 的 数据 进行 读 写 。 同 时 这 里 有 一 个 地 方 需 
要 留意 ， 要 读 写 的 区 域 是 否 会 有 神 突 ， 人 offset 和 
长 度 是 否 有 重 琶 的 block， 也 就 是 说 ， 虽 然 可 能 一 个 读 请 求 和 写 
请 求 的 offset 不 相同 ， 但 是 因为 数据 是 有 重 登 的 block， 这 也 会 
产生 冲突 。 如 下 所 示 ， 下 面 是 两 个 读 取 请 求 ， ee 
域 ， 这 里 就 被 称 为 overlap ， 对 于 读 取 是 可 以 有 重 天 的 ， 这 里 就 
与 读 写 锁 的 理解 是 类 似 的 。 
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File 


人 
RS 
Read1 
Read2 
名 2-24 


拿 到 了 区 间 锁 之 后 ， 就 要 计算 读 取 什么 内 容 了 。 根 据 前 

人 文件 通常 是 树 形 结构 的 ， 而 读 取 的 时 候 ， 
了 还 需要 考虑 读 取 其 父 节 点 ， 因 为 在 读 取 了 数据 
之 后 ， 其 放 和 人 了 缓存 里 面 ， 后 续 可 能 会 对 读 取 的 数据 进行 修改 ， 
成 为 脏 数 据 ， 脏 数据 的 内 容 ， 则 需要 重新 计算 该 节点 及 其 父 


点 的 相关 信息 ， 以 此 来 层 层 递 增 向 上 刷新 数据 。 


1 沁 P 


2.， dmu_buf_hold_array_by_dnode(dnode_t *dn， uint64_ 
tt _ offset，uint64 七 length， 


3. boolean_t read，const void *#tag，int *xnumbufsp，dmu_buf_ 
七 *#kdbpp， 

4. uint32 七 f1ags) 

5 【{ 

6. 学 

有 if (read) 

8. zio = zio_root(dn->dn_objset->os_spa，NULL，NULL， 

9. ZIO_FLAG_CANFAIL ) ; 

10. 

划 . Se 

12. for (L = 9; < nblks;j i++) { 

13. dmu_buf_impl tt *db = dbuf_hold(dn，blkid + 二 tag); 

14. 本 有 

1s. 
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16. if (read) { 

二 7. (void) dbuf_read(db，zio，dbuf_flags); 
18. if (db->db_state != DB_CACHED) 
19. missed = B_TRUE;， 

20. 】 

2 dbp[i] = &db->db; 

2 和 } 

23. 

24. 

25: if (read) { 

26. // 等 待 异 步 读 取 完成 

2 err = zio_wait(zio); 

28. 

29. 

30. 

31.， 


代码 2-39 


该 函数 中 的 调用 则 是 从 zfs_read 函数 中 的 dmu_read_uio_dbuf 
调用 的 。 该 函数 的 处 理 中 ， 前 面 还 有 一 些 标记 的 处 理 ， 也 就 是 
dbuf_flags 的 内 容 ， 主 要 就 是 考虑 是 否 有 加 密 的 内 容 ， 如 果 想 要 
了 解 ， 可 以 自行 查看 DMU_READ_NO_DECRYPT 等 字段 内 容 。 

接着 这 里 还 有 一 个 值得 注意 的 内 容 就 是 zio_root 函数 ， 该 函 
数 封装 了 读 取 请 求 的 内 容 ， 这 里 可 能 会 读 取 多 个 不 同 的 block， 
读 取 的 时 候 需 要 等 到 这 些 读 取 完成 才 可 进行 ， 也 就 是 代码 中 的 
zio_wait 内 容 。 

对 于 zio_ root， 这 和 zio tree 有 关 ， 因 为 z 是 有 存储 池 的 设 
计 的 ， 因 此 读 写 请 求 可 能 会 涉及 多 个 磁盘 ， 而 把 这 些 请 求 封装 
成 一 棵 树 的 形式 ， 头 部 添加 一 个 null 的 标记 ， 以 此 来 证 明 结 束 
标记 。 


挛 
全 
es 


2、 深 入 理解 下 


zio_root 


mirror 


名 2-25 

dbuf_hold 中 的 内 容 就 是 前 面 提 到 的 要 计算 获取 其 父 节 点 的 
内 容 ， 这 里 返回 的 是 一 个 dmu_buf_implLt 结 构 体 ， 该 结构 体 的 
内 容 会 传递 给 dbuf_read 函数 进行 最 终 的 读 取 。 而 在 dbuf_hold 
函数 中 会 调用 dhuf_hod_impl 丽 数 ， 该 函数 里 面 则 调用 dbhuf_find 
和 dbuf_findbp 函数 ， 对 应 上 述 流程 ， 如 下 所 示 。 


1 -dm 才 

2. dbuf_hold_impl(dnode tt *dn，uint8 t level，Uuint64 tt blkid， 

3. boojlean t fail_sparse，boolean 七 fail_uncached， 

4. Const void *tag，dmu_buf_imp1 七 *#xdbp) 

3 

6. 要 

db = dbuf find(dn->dn_objset，dn->dn_object，1level，blkid); 
8. if (db == NULL) 1 

9. 2 

10. err = dbuf findbp(dn，level，blkid，fail_sparse，&parent，&bp); 
区 人 

12. db = dbuf_create(dn，1level，blkid，parent，bp); 

3 下 

14.，、} 


代码 2-40 


了 解 了 要 读 取 哪些 内 容 后 ， 接 下 来 就 要 真正 考虑 读 取 数 据 
了 ， 这 里 有 一 个 问题 需要 考虑 ， 数 据 到 底 在 哪里 呢 ? 因为 读 取 
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请 求 需 要 读 取 的 数据 ， 可 能 在 缓存 中 ， 也 可 能 不 在 ， 也 就 是 说 
可 能 在 读 取 数 据 之 前 已 经 被 缓存 过 了 ， 例 如 在 LI1 和 L2 的 ARC 
中 ， 这 时 候 读 取 就 上 只 要 从 缓存 中 读 取 即 可 。 同 时 还 有 一 些 情况 ， 
一 部 分 的 数据 已 经 在 缓存 中 ， 一 部 分 并 没有 。 因 此 这 里 关于 组 
存 的 状态 管理 ， 就 涉及 dmu_buf_implLt 中 的 字段 dh_state， 如 下 
所 示 。 


typedef enum dbuf_states { 
DB_SEARCH = -1， 
DB_UNCACHED， 

DB_FILL， 
NOFILL， 

DB_READ，， 

DB_CACHED， 

DB_EVICTING 
} dbuf_states ; 


间 | 六 六 革 | 区 刘 | 多 民 
品 
品 


代码 2-41 


该 枚 举 中 的 不 同 数值 就 代表 了 缓存 的 不 同 状态 ， 这 里 状态 
轮转 关系 如 下 所 示 。 


下 +----> READ ----t+ 

2. | | 

3. | v 

4. (alloc)-->UNCACHED CACHED-->EVICTING-->(free) 
5. | 入 入 

6. [| 

5 +----> FILL ----+ 

8. | | 

9. | | 

10. +-------- > NOFILL ------- 十 


代码 2-42 


其 中 DB_SEARCH 根据 openzfs 中 的 内 容 说 明 可 以 了 解 到 ， 
这 是 和 dbuf 释放 有 关 的 。 


2、 深 入 理解 下 


在 了 解 了 dh_state 的 缓存 状态 轮转 关系 之 后 ， 如 果 要 读 取 的 
数据 ， 一 部 分 在 缓存 ， 一 部 分 没有 在 缓存 时 ， 那 么 db_state 的 状 
态 是 不 能 设置 为 CACHED 的 ， 需 要 等 待 读 取 的 全 部 缓存 命中 之 
后 才能 进行 设置 。 同 时 这 里 需要 留意 ， 如 果 有 多 个 线程 来 请 求 
相同 的 区 间 进 行 读 取 数 据 时 ， 最 终 只 能 有 一 个 线程 来 执行 读 取 
任务 ， 其 他 线程 需要 等 待 返回 即 可 。 

对 于 dbuf_read 函数 ， 这 里 最 终 调用 的 读 取 数 据 是 在 dhuf_ 
read_impl 函数 中 ， 调 用 arc_read 函数 进行 读 取 ， 如 下 所 示 。 


1._ static int 

2. dbuf_read_imp1lI(dmu_buf_imp1l t *db，zio _t *zio，UuUint32_ 
七 fl1ags， 

3. db_lock_type_t dblt，const void *tag) 

| 

5. 5 

6. (void) arc_read(zio，db->db_objset->os_spa，&bp， 

用 dbuf_read_ done，db，ZIO_PRIORITY_SYNC_READ，zio_flags， 

8. &afl1ags，&zb ) ; 

9. 

10. 


代码 2-43 


在 调用 arc_read 国 数 的 入 参 中 ， 会 带 上 dbuf_readq_done， 如 
果 读 取 成 功 了 ， 这 是 一 个 状态 设置 的 函数 ， 会 最 终 把 缓存 设 
置 为 DB_CACHED， 同 时 这 还 有 一 个 标记 是 ZIO_PRIORITY _ 
SYNC_READ， 这 个 是 ZI0 的 IO0 优先 级 标记 ， 是 zio_priority_ 枚 
举 中 的 数值 。 根 据 openzfs 的 官方 文档 内 容 呈 可 以 得 知 ， 同 步 读 
的 优先 级 是 最 高 的 。 


深入 理解 文件 系统 原理 和 实践 


1. int 

2._ arc_read(zio_t *pio，spa_t *spa，CcConst blkptr tt *bp， 

3: arc_read_done_func _t *done，YVvoid *private，Zzio_priority_ 
tt_priority， 

4. int zio_flags，arc_flags tt *arc_flags， const zbookmark_ 
phys 七 *zb) 

5 【{ 

6. 

入 if (*arc_flags & ARC_FLAG_NAIT) 

8. cvV_wait(&hdr->b_11hdr.b_cv，hash_lock); 

9. mutex_exit(hash_lock); 

10. goto top; 

和 } 

12.】} 


代码 2-44 


上 面 代码 中 的 b_ev 则 是 llarce_puf_hdr 结构 体 中 的 字段 ， 用 
于 进行 前 面 提 到 重复 读 取 线程 的 回调 ， 这 个 调用 根据 代码 中 的 
注释 内 容 可 以 了 解 到 ， 是 在 arc_read_done 中 ， 感 兴趣 的 自行 阅 
读 即 可 。 


1. _ int 

2._ arc_read(zio tt *pio，Sspa t *spa，Cconst blkptr 七 *bp， 

3: arc_read _ done_func tt *done，void *#private，zio_priority 
t_priority， 

4. int zio_ flags，arc flags 七 *arc_ flags， const zbookmark_ 
phys_ 七 *zb) 

2 

6. 

有 rzio = zio_read(pio，spa，bp，hdr_abd，size， 

8. arc_read_ done，hdr，priority，zio_ flags，zb); 

9. acb->acb zio_head = _rzio; 

10. 

11. if (*arc_flags & ARC_FLAG_WNAIT) { 

12: rc = zio_wait(rzio); 

3: goto_ out 

14. 所 

15.，】} 

代码 2-45 


2、 深 入 理解 


裤 
也 


到 这 里 为 止 ， 与 DMU 相关 的 内 容 已 经 了 解 得 差不多 了 ， 而 
请 求 提交 到 zio 之 后 ， 则 是 ZI0 模块 中 相关 的 内 容 ， 为 了 避免 代 
码 走读 逻辑 过 长 ， 因 此 想 再 深入 了 解 ZI0 模块 的 ， 则 可 以 看 下 
一 小 节 的 内 容 。 

而 DMU 中 ， 其 实 还 有 一 些 其 他 的 处 理 细节 需要 留意 一 下 ， 
例如 当 读 取 数据 的 请 求 正 在 执行 的 时 候 ， 来 了 一 个 写 和 人 相同 位 
置 的 请 求 ， 那 又 该 如 何 处 理 呢 ? 这 里 其 实 就 要 区 分 不 同情 况 了 ， 
如 果 读 请 求 并 没有 提交 到 ZIO 中 ,那么 在 dmu_read 函数 中 则 可 
以 处 理 这 种 请 求 ， 取 消 掉 读 取 请 求 ， 直 接 把 写 和 人 请 求 的 数据 放 
到 缓存 中 。 而 如 果 请 求 已 经 提交 到 ZIO 中 ， 则 可 能 无 法 拦截 成 
功 ， 因 为 ZI0 最 终 的 任务 提交 ， 是 要 交 给 内 核 进行 处 理 的 ， 那 
时 候 已 经 不 是 文件 系统 的 内 容 了 。 

另外 这 里 还 有 一 个 细节 值得 考虑 ， 那 就 是 关于 文件 层级 过 
大 ， 也 就 是 overflow 的 理解 。 如 果 要 读 取 的 文件 level 层级 过 大 
(例如 目前 默认 最 大 是 5 )， 那 么 该 文件 的 结构 可 能 就 需要 调整 ， 
主要 就 是 调整 了 间接 块 的 大 小 ， 让 其 可 以 指向 更 多 的 子 块 ， 以 
此 来 减少 文件 层级 ， 减 少数 据 读 取 思 历 的 次 数 ， 具 体 的 情况 可 
以 在 dmuf findbp 函数 中 了 解 到 。 

最 后 需要 再 次 明确 一 下 ， 如 果 有 写 人 请 求 时 ， 遇 到 的 是 非 
对 齐 写 ， 也 就 是 写 和 人 的 数据 大 小 ,不 是 完整 的 一 个 block， 例 如 
数据 块 是 4k 大 小 ， 但 是 只 写 和 人 下 时 ， 这 时 候 数 据 需 要 先 从 磁 
盘 中 加 载 再 写 信 。 但 是 遇 到 了 对 齐 写 ， 则 不 需要 从 磁盘 中 加 载 
该 数据 块 ， 只 要 在 缓存 中 分 配 空间 直接 写 人 新 数据 即 可 。 所 以 ， 
在 很 多 系统 软件 中 会 比较 倾向 于 对 齐 写 ， 这 可 以 减少 I0 读 取 次 
数 ， 同 时 也 可 减少 一 些 异 常情 况 ， 例 如 非 对 齐 写 中 ， 如 果 不 对 
数据 块 做 初始 化 处 理 ， 那 么 可 能 会 出 现 一 些 计算 校 验 码 不 一 致 
的 情况 ， 因 为 数据 块 的 剩余 部 分 可 能 会 有 其 他 数据 的 存在 。 因 
此 也 有 一 些 系统 软件 在 写 入 数据 时 ， 如 果 数 据 块 没 有 对 齐 写 ， 
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深入 理解 文件 系统 原理 和 实践 


则 会 进行 补 0 操作， 项 充 数据 达到 对 章 写 的 效果 ， 如 图 2-26 
所 未 。 


非 对 齐 写 对 齐 写 


2.13 zfs zio 


本 小 节 的 内 容 是 接着 上 面 的 读 请 求 介 绍 的 ， 是 当 DMU 模块 
的 zio 提交 到 zio 模块 之 后 开始 的 。 

如 果 读 取 的 数据 不 在 缓存 中 时 ， 则 需要 从 磁盘 中 读 取 数 据 
了 ， 这 里 则 是 与 zio_read 和 zio_wait 有 关 了 。 其 中 zio_read 则 是 
封装 了 zio ft 对象 ， 给 zio_wait 进行 调用 。 而 zio_wait 函数 中 则 会 
调用 zio execute 相关 的 函数 ， 对 zio pipeline 进行 设置 stage 状态 ， 
这 与 zio_pipe_stage 结构 有 关 ， 如 下 所 示 。 


1. static zio_pipe_stage_t *zio_pipeline[] = 工 


NULL， 
zio_read_bp_init， 


zio_write _bp_init， 


zio_issue_async， 


4 
光 ， Zio_free_bp_init， 
6 
光 
8 


Zio_write_compress， 


zio_encrypt， 
生 Zio_checksum_generate， 


10._ zio_nop_write， 


11. zio ddt_read_start， 


12._ zio ddt_read_ done， 


2、 深 入 理解 下 


13._ zio ddt_ write， 

14._ zio_ddt_free， 

15$._ zio_gang_assemble， 
16._ zio_gang_issue， 

17. zio dva_thrott1le， 
18. zio dva_allocate， 
19. zio dva_free， 

20._ zio_dva_claim， 

21. zio_ready， 

22._ zio_vdev_io_start， 
23.__ zio_vdev_io _done， 
24. zio_vdev _io_assess， 
25._ zio_checksum_Vverify， 
26. zio_done 


代码 2-46 


这 里 涉及 了 很 多 不 同 的 内 容 ， 其 中 ddt 是 和 重复 数据 删除 有 
关 的 ， 而 读 取 数 据 流程 中 有 关 的 则 是 zxio_read_bp_init，zio_vdev_ 
io_start，zio_vdev_ io_done 等 内 容 。 其 中 zio_vdev io_start 还 会 考 
虑 数据 是 从 哪个 磁盘 中 读 取 的 ， 因 为 礁 中 是 有 存储 池 设 计 的 ， 
如 果 是 镜像 ， 那 么 相同 的 数据 则 会 存在 多 个 磁盘 中 ， 如 果 从 其 
中 一 个 磁盘 中 读 取 失败 了 ， 则 需要 从 其 他 的 磁盘 中 读 取 。 如 果 
是 RAIDZ 的 存储 池 处 理 则 也 是 类 似 的 。 感 兴趣 的 可 以 自行 阅读 
一 下 如 vdev_mirror io_start 和 vdev_raidz_io_start 函数 。 

当然 不 管 是 mirror 还 是 raidz 的 存储 池 ， 在 其 io start 函数 
中 ， 都 会 调用 到 zio_nowait 函数 ， 其 中 人 参 的 有 zio_vdev_child_ 
io 函数 。 


个 、 深入 理解 文件 系统 原理 和 实践 2、 深 入 理解 玖 


1. _ Static zio 七 *# 此 error = vdev_disk_io_ flush(vd->vd_bdev，zio); 
2. zio_vdev_io_start(zio 七 *zio) 10. 

3 1 二， 

4. 5 2, } 

) if (vd->vdev_ops->vdev_op_leaf && 1 

6 vd->vdev_ops != &vdev_draid_spare_ops && 14. error = _vdev_disk_physio(vd->vd_bdev，zio， 

杰 (zio->io_type == ZIO_TYPE_READ | | 15. zio->io_size，zio->io_offset，rw，68)1 

8. zio->io_type == ZIO_TYPE_WRITE | | 16. 

9. zio->io_type == ZIO_TYPE_TRIM) ) { 代码 2-48 

10. 区 

11. if (zio->io_type == ZIO_TYPE_READ && vdev_cache_read(zio)) 

四 Perurn 《239); 这 里 有 一 个 分 支 是 调用 vdev_disk_io_flush 的 ， 这 个 是 和 写 
13. if ((zio = vdev_queue_io(zio)) == NULL) 这 征 现 痢 vdqev_qlsK_10_ Hus ， 耽 修 征 机 坊 
和 入 请 求 的 脏 数据 有 关 的 。 当 有 写 和 请求 的 数据 到 缓存 之 后 ， 系 
16. 统 是 会 定时 或 者 达到 脏 数 据 的 一 定 比 例 之 后 就 调用 一 次 ftush 请 
【7. vd->vdev_ops->vdev_op_io_start(zio); 尖 记 

18. Peturn (NULL) 求 ; 把 脏 数 据 持 久 化 到 磁盘 中 。 

代码 2-47 接着 则 是 与 bio 相关 的 内 容 了 ， 具 体 地 可 以 查看 vdev_disk_ 


physio 函数 的 内 容 。 对 于 读 取 的 数据 ， 加 载 之 后 还 需要 进行 计算 
校 验 ， 这 时 候 就 是 zio_pipe_stage t 中 的 zio_checksum_verify 函数 
功能 了 。 

后 来 查看 一 下 和 ZIO 队列 有 关 的 参数 ， 这 里 的 参数 定 
义 在 vde_dqdueue.c 文件 中 ， 其 中 xf vdev_max_active，zfs_vdev_ 
sync_read_min_active 等 参数 是 值得 关注 的 ， 有 具体 的 参数 数值 和 
含义 ， 可 以 见 该 文件 的 内 容 ， 这 里 就 不 再 重复 了 。 


回 到 zio_vdev_io_start 图 数 中 ， 会 把 zio 放 在 IO 队列 中 ， 也 
就 是 调用 vdev_queue_io， 调用 对 应 的 io start 汞 数 ， 也 就 是 vdev_ 
op_lo_start。 

在 vdev _op_lo_start 范 数 中 会 调用 zio 则 是 当 磁 盘 
加 载 了 数据 之 后 ， 会 中 断 cpu 对 其 进行 回调 的 ， 这 里 zio pipeline 
stage 则 是 调用 了 zio_vdev_ io_done 国 数 。 

同时 在 该 函数 中 ， 可 以 看 到 zio _type _ t 乡 吉 构 体 的 其 他 类 型 ， 


如 下 所 示 。 2.14 zfs 磁盘 移 除 

1 static void 在 xz 中， 有 存储 池 的 存在 ， 一 般 新 建 的 时 候 会 添加 很 多 磁 
人 disk_io_start(zio_t *zio) 盘 , 有 添加 也 就 会 有 移 除 , 对 应 的 就 是 二 二 命令 。 当 然 ， 
4 在 磁盘 移 除 命令 中 ， 要 和 磁盘 掉 线 区 分 开 ， 前 者 是 正常 en 
WE 的 磁盘 移 除 该 zpool， 而 后 者 则 是 某 个 设备 被 热 插 拔 了 ， 但 是 

< 人 置信 息 应 该 是 还 要 留 在 系统 中 的 。 同 时 对 于 磁盘 替换 命令 ， 


质 上 是 一 个 组 合 命令 ， 就 是 磁盘 添加 和 磁盘 移 除 的 组 合 ， 一 般 


je 
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是 先 添加 一 个 新 的 磁盘 ， 格 式 化 设置 好 之 后 ， 再 进行 移 除 操作 。 
而 添加 磁盘 相对 简单 ， 但 因为 是 一 个 空 的 磁盘 ， 则 移 除 磁盘 比 
较 麻 烦 ， 里 面 会 存在 各 种 数据 ， 同 时 数据 可 能 还 在 读 写 等 ， 因 
此 要 考虑 的 场景 和 问题 相对 复杂 很 多 。 

首先 要 考虑 什么 条 件 下 的 磁盘 可 以 被 移 除 ? 

如 果 有 有 蜡 常 的 磁盘 ， 正 在 修复 数据 的 时 候 ， 能 否 会 被 移 除 
呢 ? 还 有 一 些 严 重 警 告 时 能 会 被 否 移 除 呢 ? 这 时 做 这 些 操作 ， 
都 可 能 会 导致 一 些 未 知 的 异常 风险 ,严重 的 时 候 甚 至 会 出 现 数 
据 丢 失 的 可 能 。 通 常 在 操作 磁盘 移 除 时 ， 建 议 在 zpool 没有 异 各 
情况 下 进行 。 

另外 对 于 移 除 的 磁盘 , 是 什么 类 型 的 磁盘 都 可 以 被 移 除 吗 ? 
Raidz 和 Mirror 的 可 以 吗 ?” 在 openzfs 中 ， 对 于 RaidZ 的 磁盘 是 
不 允许 被 移 除 的 ， 这 里 是 有 限制 的 。 原 因 也 很 简单 ， 因 为 RaidZ 
本 质 上 是 对 数据 进行 分 片 后 再 进行 校 验 ， 通 常 移 除了 一 个 磁盘 
以 后 ， 可 能 会 导致 磁盘 数量 不 满足 条 件 等 ， 因 此 对 于 RaidZ 类 
型 的 存储 池 磁 盘 ， 目 前 是 不 支持 移 除 的 ， 当 然后 续 不 确定 是 否 
会 有 新 的 变化 ， 关 于 这 一 点 ， 建 议 各 位 要 密切 关注 自己 所 使 用 
的 版 本 的 最 新 要 求 。 

关于 RaidZ 类 型 的 磁盘 无 法 被 移 除 这 一 点 ， 不 只 是 z 有 这 
样 类似 的 要 求 ， 对 于 glusterfs ，EC 宛 余 卷 ， 也 是 不 允许 在 线 升 
级 的 ， ”这 点 要 求 的 限制 也 是 类 似 的 。 

除了 以 上 内 容 ， 还 要 考虑 一 点 ， 被 移 除 磁 盘 的 数据 需要 重 
新 找 地 方 写 信人， 如 果 是 多 副本 的 存储 池 ， 那 么 会 把 数据 写 入 其 
他 磁盘 下 ， 这 时 候 需要 保证 剩余 的 磁盘 空间 容量 足够 存放 这 些 
数据 ， 和 否则 会 导致 无 法 写 和 信人， 如 图 2-27 所 示 。 
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图 2-27 

移 除 磁盘 过 程 中 ， 需 要 考虑 和 进行 哪些 步骤 呢 ? 其 代码 好 
辑 过 程 主要 在 vdev_removal.e 文件 中 ， 这 里 主要 会 涉及 两 点 : 禁 
止 新 的 请 求 和 数据 迁移 。 下 面 开 始 简单 分 享 一 下 。 


@ 茶 止 对 被 移 除 磁盘 的 写 入 


这 一 点 比较 好 理解 ， 因 为 要 移 除 磁盘 的 时 候 ， 不 再 允许 对 
新 的 读 写 请 求 进 行 分 配 ， 这 一 点 主要 是 在 spa_vdev_remove_top 
函数 中 进行 的 。 当 然 在 执行 该 函数 之 前 ， 有 一 次 检查 的 功能 ， 
也 就 是 spa_vdev_remove_top_check 郴 数 所 需要 进行 的 功能 了 。 
需要 注意 的 是 ， 这 新 的 空间 申请 之 前 ， 需 要 确保 zpool 中 不 会 只 
有 一 个 磁盘 ， 否 则 是 无 法 进行 数据 迁移 的 。 


@ 数据 迁移 


磁盘 介 载 的 时 候 ， 要 进行 数据 迁移 ， 在 zx 中 是 需要 启动 
一 个 新 的 线程 来 进行 处 理 的 ， 这 和 spa_vdev_remove_thread 函数 
有 关 ， 对 于 这 个 过 程 ， 需 要 知道 要 迁移 的 数据 在 哪里 。 这 时 候 
MetaSlah 和 space map 就 可 以 显示 其 作用 了 。x 中 的 metaslab 就 
是 记录 了 空间 分 配 的 情况 ， 而 space map 则 是 日 志 记 录 。 而 数据 
迁移 的 过 程 ， 可 以 理解 为 数据 同步 ， 也 就 是 syne task， 这 是 一 
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种 数据 内 部 重新 分 配 写 和 过程， 因此 可 以 看 成 是 一 次 特殊 的 写 
入 请 求 。 因 此 从 MetaSlab 中 获取 到 了 哪些 数据 要 重新 迁移 ， 接 
下 来 就 是 进行 数据 找 贝 复制 了 ， 产 生 新 的 迁移 记录 ， 这 里 采用 
space map 来 记录 。 

对 于 加 载 被 移 除 磁盘 的 空间 分 配 记 录 ， 可 以 见 如 下 代码 
所 示 。 


static attribute __((noreturn)) void 
spa_vdev_remove_thread(void *arg) 


1 

2 

3 

4 for (msi = start_offset >> vd->vdev_ms_shift; 

的 。 msi < vd->vdev_ms_count && !Ssvr->svr_thread_exitj msi++) { 
6. if (msp->ms_sm != NULL) 并 
沁 

8 

9 

1 

1 


VERIFY6(space_map_load(msp->ms_sm， 
Ssvr->svr_allocd_segs，SM_ALLOC) ); 


]} 


0 } 
直 


代码 2-49 


上 面 的 代码 省 略 了 很 多 的 内 容 ， 在 该 轴 数 中 ,会 使 用 spa_ 
vdev_removal 结构 中 的 svr_thread 字段 来 记录 ， 这 里 调用 space_ 
map_load 来 加 载 读 取 要 被 移 除 磁盘 的 MetaSlab 信息 。 

接着 其 延伸 出 一 个 小 细节 ， 每 次 读 取 多 少数 据 呢 ? 一 般 来 
说 , 磁盘 数据 的 迁移 过 程 , 应 该 是 越 快 越 好 , 因为 迁移 时 间 大 长 ， 
会 影响 到 正常 的 线 上 生产 环境 的 性 能 ， 甚 至 有 其 他 突 发 的 高 可 
用 问题 ， 例 如 磁盘 坏 盘 或 者 掉 线 等 ， 会 影响 性 能 甚至 造成 数据 
损坏 。 因 此 为 了 加 速 数据 迁移 ， 在 难 中 ， 对 于 读 取 的 数据 长 
度 ， 有 一 个 变量 可 以 进行 限制 ， 也 就 是 SPA_MAXBLOCKSHIFT， 
这 个 数值 目前 在 鸡 中 是 16M， 也 就 是 说 ， 每 次 读 取 的 数据 量 以 
chunk 为 单位 ， 最 多 读 取 16M 为 一 个 chunk。 

对 于 这 样 的 优化 ， 有 其 明显 的 优 缺 点 ， 优 点 很 明显 ， 就 是 
数据 分 片 越 大 ， 一 次 性 读 取 会 比 小 分 片 的 相对 速度 快 得 多 ， 当 
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然 也 不 能 太 大 ， 例 如 以 GB 为 单位 的 话 ， 明 显 就 过 大 了 ， 同 时 也 
超出 了 一 般 磁盘 的 I0 性 能 。 

同时 这 样 做 的 缺点 也 很 明显 ， 当 一 次 性 读 取 16M 的 数据 时 ， 
如 果 数 据 地 址 空间 分 配 是 连续 的 ， 那 么 是 比较 适合 的 ， 但 是 在 
一 些 特 殊 情 况 下 ， 可 能 会 导致 性 能 不 太 理 想 ， 也 就 是 文件 的 空 
间 分 配 碎片 化 比较 严重 时 ， 如 图 2-28 所 示 。 


人 
人 


Metaslab 


名 2-28 
对 于 要 复制 的 chunk， 如 果 其 中 有 比较 多 的 删除 记录 ， 那 么 
这 对 于 数据 迁移 是 不 太 友好 的 ， 会 明显 降低 数据 迁移 的 性 能 。 
同时 ， 这 里 还 要 考虑 一 个 问题 ， 如 果 申 请 一 个 连续 的 大 分 
片 空间 ， 在 要 写 和 人 的 磁盘 中 并 没有 那么 大 的 连续 空间 该 如 何 解 
决 呢 ? 这 时 候 就 需要 考虑 对 分 片 数 据 进行 切 分 了 ， 也 就 是 分 成 
两 份 甚至 多 份 数据 ， 如 图 2-29 所 示 。 
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同时 还 要 考虑 ， 在 数据 迁移 过 程 中 ， 如 果 还 有 其 他 的 请 求 
进入 被 移 除 磁盘 中 ， 这 些 该 如 何 处 理 ?” 请 留意 一 下 ， 这 里 并 不 
是 指 新 的 请 求 ， 而 是 指 那些 已 经 被 接受 的 请 求 ， 包 括 读 写 和 其 
除 这些 。 对 于 读 取 请 求 还 比较 好 处 理 ， 因 为 磁盘 还 没有 正式 被 
移 除 ， 因 此 也 是 可 以 读 取 到 数据 的 ， 而 写 人 请 求 会 被 重 定向 到 
新 分 配 的 空间 。 但 是 对 于 删除 请 求 ， 这 里 需要 考虑 两 种 情况 。 

(1) 要 删除 的 数据 并 没有 被 复制 到 新 的 磁盘 空间 ， 这 时 候 
直接 在 被 删除 磁 答 中 操作 就 可 以 了 。 

(2 ) 如 果 一 旦 要 删除 的 数据 之 前 已 经 被 复制 到 新 的 地 址 空 
间 了 ， 和 那么 这 时 候 需 要 再 次 发 起 一 次 新 的 删除 请 求 到 新 分 配 的 
地 址 ， 这 就 是 free_ffom_removing_vdev 函数 需要 考虑 的 。 

最 后 对 于 磁盘 移 除 的 过 程 ， 蕉 ee 这 
个 可 以 从 zpool 命令 中 找到 相关 的 参数 ， 这 里 就 不 再 讨论 了 。 而 
取消 移 除 的 过 程 ， 则 需要 反 向 操作 一 次 ， 也 就 是 对 移 除 新 分 配 
的 数据 ， 进 行 删除 操作 ， 并 且 重 置 磁盘 信息 状态 等 。 


2.15 zfs scrub 


在 xs 中 有 两 个 比较 有 趣 的 命令 和 参数 设置 ， 就 是 dedup 和 
scrub， 其 中 dedup 是 deduplication 的 简称 ， 也 就 是 重复 数据 删 
除 技 术 ， 这 个 技术 的 出 现 是 为 了 节省 空间 ， 而 这 个 技术 的 出 现 
在 2009 年 的 时 候 Jeff Bonwick 先生 的 博客 就 已 经 讨 
论 过 这 个 技术 的 实现 。5 而 scrub 则 是 进行 数据 完整 性 校 验 的 命 
妆 5 1 在 z8 文件 系统 中 有 ， 在 一 些 固态 硬 盘 中 也 
可 能 会 有 对 应 的 命令 。 

首先 我 们 来 讨论 一 下 , 为 什么 需要 考虑 一 个 这 样 的 命令 呢 ? 
一 般 来 说 ， 文 件 系统 写 和 人 的 数据 到 磁盘 设备 ， 不 管 是 机 械 盘 还 
是 固态 ， 通 常 应 该 信任 其 数据 是 可 靠 的 ， 但 是 有 时 候 往往 会 有 
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一 些 额 外 的 情况 ， 例 如 数据 很 久 没有 读 写 ， 属 于 冷 数据 ,那么 
在 固态 里 面 ， 可 能 会 出 现 比特 反 转 的 现象 ， 这 时 候 就 需要 使 用 
scrub 命令 来 进行 检查 并 且 修 复数 据 了 。 下 面 来 简单 感受 一 下 访 
命令 的 使 用 。 


1._ ~“# zpool _ scrub hilton 
2._ ~# zpool status 
和 pool: hilton 
4. state: ONLINE 
3: Scan: scrub repaired 6B jn 69:68:68 with 6 errors on Sat Feb 4 17:41:62 2623 
6. config: 
法 NAME STATE READ WRITE _CKSUM 
8&. hilton ONLINE 9 9 9 
9. Vvdc ONLINE 6 6 6 
10. vdd ONLINE 6 6 6 
11.， errors: No known data _ errors 

代码 2-50 


这 里 需要 留意 的 是 对 scruh 命令 进行 操作 时 ，zfks 中 对 其 的 
优先 级 是 最 低 的 ， 也 就 是 比 同步 和 异步 读 写 的 优先 级 都 要 低 ， 
这 一 点 可 以 查看 zs IO scheduler 的 相关 内 容 ， 如 表 2-4 所 示 。 


表格 2-4 
优先 级 IO 类 似 相关 参数 


2zf_vdev_sync_read_min_active 


同步 读 (sync read) 


2Zf_vdev_sync_read_max_active 


2Zf_vdev_sync_wriite_min_active 


高 同步 写 (ync write) 
2Zf_vdev_Ssync_write_max_active 
2Zf_vdev_async_read_min_active 
| 异步 读 (async read) ， 
2Zf_vdev_async_read_max_active 
. 2Zf_vdev_async_wrTite_min_active 
低 异步 写 (async write) 


Zf_vdev_async_wTrite_max_active 


zf_vdev_scrub_min_active 
ScrUb - 
zf_vdev_scrub_max_active 
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对 于 鸭 的 I0 类 型 ， 这 里 需要 和 我 们 常见 的 Linux IO 概念 
区 分 开 ， 我 们 常 说 的 Linux IO 是 指 对 文件 的 操作 IO 请 求 ， 但 
是 其 中 可 能 会 包括 了 增删 改 查 等 操作 ， 或 者 是 一 些 扩展 属性 命 
令 设 置 等 ， 这 些 都 是 Linux IO 请 求 。 而 蕉 的 IJ0， 主 要 讲 的 就 
是 文件 的 同步 或 者 异步 读 写 请 求 ，xf 在 缓存 中 对 文件 进行 修改 
的 操作 ， 会 对 文件 的 修改 进行 持久 化 落 盘 。 其 中 提交 的 文件 修 
改 ， 是 封装 成 linux 的 bio 请 求 ， 最 后 提交 给 对 应 的 磁盘 设备 进 
行 操作 。 

对 于 I0 请 求 的 性 能 研究 问题 ， 通 常 有 多 个 不 同 的 层次 ， 首 
先是 文件 系统 在 缓存 中 对 文件 的 修改 I0 操作 ， 还 有 是 在 文件 系 
统 修改 完成 之 后 ， 提 交 到 内 核 I0 调度 模块 ， 写 和 人 磁盘 设备 的 IO 
操作 等 。 所 以 读者 在 遇 到 I0 性 能 测试 或 者 相关 问题 时 ， 需 要 根 
据 语 义 语 境 来 判断 具体 指 代 哪 种 情况 。 

目前 xz 官方 正在 考虑 增加 一 个 叫 “zhack scrub” 的 命令 ， 
主要 是 希望 在 用 户 态 中 使 用 scrub， 关 于 该 命令 的 pr， 吧 可 以 自 
行 查看 最 新 的 进展 。 


2.16 zfs dedup 


第 一 个 问题 是 为 什么 需要 考虑 重复 数据 删除 技术 。 从 这 个 全 
称 中 就 可 以 知道 ， 很 多 时 候 数 据 是 重复 的 ， 例 如 发 送 邮件 的 时 候 ， 
附件 经 常 都 是 重复 的 。 如 果 可 以 应 用 dedup 技术 ， 就 可 以 大 大 地 
减少 空间 了 。 与 此 同时 ， 又 产生 了 一 个 新 的 问题 ， 到 底 在 文件 系 
统 ，dedup 该 在 哪个 层面 去 实现 呢 ? 

因为 对 于 文件 系统 来 说 ,文件 结构 是 树 形 结构 的 ， 这 里 实 
现 该 技术 加 有 三 个 层面 的 路 线 了 ， 分 别 是 文件 级 别 的 、plock 级 
别 的 还 有 字 节 级 别 的 。 这 三 个 不 同 级 别 的 实现 都 会 带 来 不 同 的 
考虑 。 
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如 在 block 级 别 实现 的 话 ， 这 里 的 灵活 度 就 更 高 了 ， 只 需要 
了 解 匹 配 两 个 文件 的 bloek 块 是 否 一 致 就 可 以 了 ， 而 xs 最 终 选 
择 的 也 是 在 block 块 级 别 来 进行 的 。 而 字 节 级 别 的 话 ， 这 里 因 
为 需要 一 个 个 字 节 进行 对 比 ， 这 样 的 工作 量 是 非常 庞大 且 不 适 
合 的 。 

决定 了 在 什么 级 别 实 现 dedup 技术 之 后 ， 接 着 产生 了 另外 
一 个 问题 ， 什 么 时 候 进行 dedup 技术 ”也 就 是 说 ， 到 底 什 么 时 
候 对 文件 进行 判断 是 否 有 重复 。 在 文件 写 入 的 时 候 还 是 写 入 完 
成 之 后 。 写 和 人 完成 之 后 进行 处 理 ， 这 里 可 以 平衡 一 下 机 器 的 负 
载 ， 主 要 是 当 机 咒 空闲 的 时 候 进 行 操作 。 异 步 重复 数据 消除 通 
常用 于 CPU 能 力 有 限 或 多 线程 能 力 有 限 的 存储 系统 ， 以 对 日 
间 性 能 的 影响 降 至 最 低 。 考 虑 到 足够 的 计算 能 力 ， 同 步 重 复数 
据 消除 更 可 取 ， 因 为 它 不 会 浪费 空间 ， 也 不 会 对 现 有 数据 进行 
不 必要 的 磁盘 写 入 。xfs 考虑 到 未 来 的 发 展 ， 在 选择 了 数据 写 和 人 
时 ， 同 步 进 行 dedup 技术 。 因 此 在 openzf 的 源码 中 ， 其 文件 
zstream_redup.c 就 是 处 理 这 些 的 。 

而 在 zf 中 ， 如 果 想 要 开启 或 者 关闭 dedup 技术 ， 只 需要 执 
行 如 下 命令 即 可 。 


1._ zfs_ set dedup=on_ tank 
2. zfs set dedup=on tank/src 


代码 2-51 


其 中 tank 是 假设 已 经 存在 的 z 蕉 pool。 当 然 ， 如 果 只 需要 对 
其 中 某 个 目录 进行 设置 。 

其 还 会 产生 一 个 问题 ， 到 底 如 何 判断 两 个 文件 的 block 
是 真 的 一 致 呢 ? 这 里 通 篆 判断 文件 是 否 被 修改 过 ， 可 以 使 用 
checksum 算法 ， 也 就 是 hash 算法 来 考虑 ， 而 更 加 严谨 地 思考 一 
下 ，hash 算法 到 底 能 否 保证 不 会 产生 冲突 呢 ? 这 就 取决 于 hash 算 
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法 的 实现 或 者 是 和 否 相 信 hash 算法 的 结果 了 。 而 通常 使 用 的 hash 
算法 有 SHA256。 因 此 当 用 户 不 再 信任 ， 或 者 想 要 更 加 严谨 一 点 
的 话 ， 这 时 候 就 需要 一 种 机 制 来 进行 保证 ， 一 旦 hash 算法 真 的 出 
现 冲 突 了 ， 也 可 以 解决 这 个 问题 。 这 里 的 解决 方案 就 是 进行 字 节 
对 比 。 在 难 中 有 一 个 选择 就 是 解决 这 个 问题 的 。 


1._ zfs_ set dedup=verify tank 
2. zfs_ set dedup=fletcher4,Vverify tank 
代码 2-52 


把 dedup 设置 为 verify 之 后 ， 哪 怕 两 个 block 的 checksum 是 
一 致 的 ， 也 会 进行 字 节 对 比 ， 以 此 来 保证 出 现 冲突 后 可 以 发 现 。 
当然 在 z 中 也 提供 了 一 些 其 他 的 hash 算法 来 进行 dedup 技术 的 
判断 。 但 是 根据 官方 的 建议 ， 通 党 不 建议 修改 对 应 的 hash 算法 。 

还 需要 考虑 一 个 问题 ， 是 否 需 要 额外 的 内 存 空间 来 记录 重 
复 的 数据 信息 。 因 为 在 实现 dedup 技术 时 ， 需 要 有 一 张 表 来 记 
录 重 复数 据 ， 这 张 表 在 zf 中 被 称 为 DDT， 而 在 日 带 使 用 中 ， 开 
启 了 dedup 之 后 ， 对 性 能 和 内 存 要 求 是 很 高 的 ， 根 据 oracle 的 建 
议 ， 这 里 需要 先 判断 一 下 ， 内 存 是 否 满足 开启 该 功能 ， 计 算 的 
规则 如 下 。 


1]._ In-core DDT_ size (1.62M) x 326 = 326.4 MB of _ memory is _required. 
代码 2-53 


也 就 是 说 ， 如 果 DDT 表 的 大 小 是 1.02M， 那么 这 里 内 存 应 
该 要 是 这 张 表 的 320 倍 以 上 ， 因 此 这 就 是 为 什么 不 会 经 常 开 启 
dedup 的 原因 了 。 当 然 ， 对 于 dedup 功能 来 说 ， 其 实 也 是 可 以 使 
用 快照 和 克隆 来 代替 的 。 同 时 ， 一 旦 开启 了 dedup 之 后 ， 在 删 
除数 据 和 数据 迁移 的 时 候 ， 也 需要 有 更 多 的 考虑 ， 其 增加 了 代 
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但 复杂 度 和 场景 复杂 度 ， 人 性 能 也 会 随 之 可 能 下 降 。 
2.17 zfs 快照 


文件 系统 的 快照 功能 是 一 个 比较 稼 见 的 内 容 ， 同 时 也 算是 
大 部 分 文件 系统 都 应 该 具备 的 基础 功能 之 一 ， 但 是 快照 的 实现 
方式 ， 则 是 有 不 同 的 考虑 的 。 总 的 来 说 ， 目 前 笔者 遇 到 过 依 
赖 Linux 内 核 的 快照 ， 具 体 来 说 就 是 依赖 lym2 来 实现 的 ， 其 以 
glusterfs 为 代表 。 简 单 来 说 就 是 快照 功能 的 实现 ， 并 不 是 通过 自 
导 来 实现 ， 而 是 依赖 于 操作 系统 。 当 然 也 有 一 些 是 自己 负责 快 
照 的 ， 芍 就 是 其 中 一 个 。 

实现 快照 ， 需 要 和 虚拟 机 的 快照 进行 区 别 ， 和 常用 的 vmware 
和 virtualbox 中 也 有 快照 功能 ， 但 是 虚拟 机 中 的 快照 是 需要 和 暂停 
运行 的 ， 也 就 是 stop the world， 而 难 中 实现 的 快照 ， 并 不 需要 
暂停 服务 。 

实现 快照 ， 要 解决 的 第 一 个 问题 是 以 什么 内 容 为 基准 ， 判 
断 数据 是 否 应 该 保留 下 来 呢 ? 这 个 问题 很 好 解决 ， 那 就 是 文件 
中 的 txg id， 当 然 在 xz 中 是 使 用 birth time 来 称呼 的 ( 见 blkptr_ 
t 结构 )。 为 什么 使 用 这 个 名 称 呢 ? 因为 在 文件 的 读 写 过 程 中 ， 
需要 不 断 记 录 当 前 操作 文件 的 最 新 的 事务 ia， 因此 以 该 衣 来 进 
行 衡 量 ， 其 是 不 断 变 化 的 ， 所 以 需要 有 一 个 固定 的 事务 id 来 进 
行 记录 ， 这 个 就 是 pirth time， 可 以 成 为 文件 生成 时 事务 id。 在 
数据 库 中 实现 的 事务 级 别 隔离 ， 也 是 基于 事务 id 来 实现 的 ， 在 
mysql 中 通常 称 为 高 低 水 位 。 

zfs 对 于 数据 的 更 新 是 写 时 复制 的 (copy on write )， 这 里 创 
建 了 快照 之 后 ， 需 要 保留 root block， 防 止 数据 被 删除 ， 同 时 会 记 
录 一 个 snapshot tme ( 简称 snap time )， 如 图 2-30 所 示 。 
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snapshot 


山 


snapshot time 


Update 


图 2-30 

有 了 snap time 之 后 ， 当 后 续 如 果 要 删除 快照 时 ， 需 要 知道 
该 block 是 否 被 快照 引用 ， 如 果 block 的 birth time 大 于 最 近 一 次 
快照 的 snap time， 则 证 明 该 block 是 在 快照 执行 后 生成 的 ， 那 么 
则 可 以 删除 该 plock。 

对 于 文件 系统 来 说 ， 快 照 是 可 以 创建 多 个 的 ， 因 此 每 一 个 
快照 都 会 有 其 对 应 的 snap time， 删除 快照 的 时 候 ， 需 要 知道 该 
数据 是 否 被 当前 快照 独占 ， 因 为 只 有 独占 的 数据 块 才 能 删除 ， 
否则 该 数据 还 被 之 前 创建 的 快照 所 需要 ， 被 是 不 能 删除 的 。 

同时 对 于 快照 的 使 用 需要 留意 ， 不 能 过 于 频繁 地 创建 和 删 
除 快照 ， 因 为 在 快照 被 创建 后 ， 每 次 对 文件 的 处 理 还 需要 多 一 
些 额 外 的 逻辑 校 验 判断 ， 即 需要 考虑 该 文件 是 否 有 快照 ， 如 果 


130 


2、 深 入 理解 下 


需要 保存 的 话 ， 还 不 能 进行 删除 ， 其 会 影响 到 数据 落 盘 的 性 能 
等 。 而 zclone 功能 原理 也 是 和 快照 非常 相似 的 ， 区 别 就 是 克 
隆之 后 的 数据 可 以 进行 读 写 修改 ， 但 是 快照 目前 默认 是 只 读 的 。 
同时 克隆 和 快照 还 有 一 点 不 同 ， 克 隆 还 需要 额外 记录 修改 过 的 
快照 文件 ， 因 此 还 需要 增加 一 个 time 来 记录 对 应 的 修改 情况 ， 
关于 这 点 感 兴趣 的 可 以 查看 相关 资料 。 


2.18 zfs 动态 trim 


zf 中 还 有 一 个 比较 有 趣 的 高 级 特性 ， 就 是 动态 trim 功能 的 实 
现 〈autotrim )， 这 个 功能 的 实现 主要 是 为 了 优化 蕉 rim 的 问题 ， 
其 为 手动 执行 rim 的 时 候 ， 命 令 执行 时 间 较 长 ， 会 阻塞 住 其 他 的 
用 户 请 求 ， 导 致 系统 可 能 会 出 现 被 阻塞 的 现象 。 当 然 ， 为 了 了 解 
这 个 功能 ， 我 们 需要 先 从 rrim 到 底 是 什么 讲 起 。 

在 过 去 几 年 中 ， 固 态 硬盘 越 来 越 受 欢迎 。 从 中 我 们 可 能 读 
过 或 至 少 听 过 其 他 人 谈论 SSD (固态 便 盘 ) 与 传统 硬盘 相 比 的 
速度 有 多 快 。 如 果 已 经 在 使 用 SSD 或 想 要 购买 SSD 以 提高 计算 
机 性 能 ， 通 常 rim 的 支持 是 必 不 可 少 的 。trim 是 一 个 命令 ， 通 
过 该 命令 ， 操 作 系 统 可 以 告诉 固态 SSD 哪些 数据 块 不 再 需要 ， 
可 以 删除 ， 或 者 标记 为 可 自由 重 写 。 换 名 话说 ，trim 是 一 个 命 
令 ， 它 帮助 操作 系统 准确 地 知道 要 移动 或 删除 的 数据 存储 在 何 
处 。 此 外 ， 每 当 用 户 或 操作 系统 发 出 删除 命令 时 ，trim 命令 立即 
探 除 存储 文件 的 页 面 或 块 。 这 意味 着 下 次 操作 系统 尝试 在 该 区 
域 中 写 和 人 新 数据 时 ， 不 必 先 等 待 删除 。 简 单 来 说 ， 就 是 rim 功 
能 的 出 现 优 化 了 固态 在 数据 擦 写 方面 的 性 能 。 

在 z 中 也 是 支持 rim 功能 的 ， 下 面 先 简单 感受 一 下 命令 参 
数 的 使 用 ， 如 下 所 示 。 
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1. ~# zpool 七 Pim 

2. missing pool_name _ argument 

3. Usage : 

4. trim [-dw] [-r <rate>] [-c | -s] <pool> [<device> ...] 

代码 2-54 
当然 ，x& 目前 最 新 的 版 本 也 已 经 开始 支持 了 动态 rim 的 功 

能 ， 可 以 进行 如 下 设置 查看 是 否 支 持 。 

1. ~*# zpool _ set _autotrim=on 

2. missing _ pool _name 

3. Usage: 

4. set “property=Value> 《pool> 

5. 

6.__ the following properties _ are _ supported : 

光 

8. PROPERTY EDIT VALUES 

9 

10. autotrim YES _ on | off 


12.，The feature@ properties must be appended with a_ feature _name . 
13. See zpool-features(7). 
代码 2-55 


从 上 面 的 命令 参数 可 以 看 到 这 里 文 持 开 关 ， 同 时 在 xz 中 对 
该 命令 的 支持 是 同时 支持 autotrim 和 手动 执行 ， 二 者 并 不 冲突 。 
这 里 有 了 x rim 之 后 ， 为 什么 还 要 考虑 autotrim 呢 ? 其 中 
一 个 重要 的 原因 是 rim 功能 是 阻塞 的 ， 因 此 手动 执行 的 trim 命 
邻 所 需要 的 时 间 更 长 ， 有 时 候 是 无 法 接受 的 ， 因 此 就 产生 一 个 
想法 , 能 和 否 在 后 台 自 动 运行 rim 功能 , 这 就 是 autotrim 来 源 之 一 。 
在 后 台 运 行 trim 功能 (autotrim )， 首 先 要 做 的 就 是 启动 一 
ee 
不 能 影响 到 正常 的 服务 运行 ， 因 此 这 需要 控制 住 运行 的 速度 ， 
人 能 一 次 性 对 多 个 磁盘 进行 操作 ， 而 难 对 于 autotrim 的 
优化 ， 考 虑 的 颗粒 度 更 加 细腻 。 从 前 面 的 内 容 可 以 知道 ,xz 对 
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2、 深 入 到 


BE 解 不 


于 每 个 磁盘 的 管理 是 使 用 metaslab 进行 划分 区 间 的 ， 因 此 使 用 
autotrim 的 时 候 ， 为 了 更 好 地 控制 速度 ， 默 认 是 每 次 只 对 一 个 磁 
盘 的 一 个 metaslabh 进行 执行 ， 这 并 不 会 阻塞 太 多 其 他 的 metaslab 


的 使 用 。 


当然 ， 对 于 im 的 优化 ， 如 果 局 动 了 trim 之 后 ， 能 否 进 和 


取消 或 者 挂 起 呢 ? 这 当然 是 可 以 的 ， 这 也 就 是 zpool trim 命令 -- 
rate 和 --cancel 这 些 参 数 的 作用 了 。 同 时 为 了 更 进一步 地 观察 
trim 和 情况 ，zf8 中 如 果 开 局 了 该 动态 trim 功能 之 后 ， 可 以 


过 命令 来 观察 ， 命 令 如 下 所 示 。 


1._ ~*# zpool iostat -mr _ hilton 


2 
3._ hilton sync_read Sync_write async_read async_ 
write scrub 七 im 
4. req_size ind agg ind agg ind ag8g ind ag 
E ind agg ind agg 
半 二 避 匡 荆 二 二 站 二 十 辣 辣 ，， 测 本 让 疝 十。 二 二 辣 二 二， 后 汪 三 总 -本 站 上 丰 二 局 -本 二 站 二 
和 :512 9 9 6 9 9 6 116 6 4 6 9 9 
7. 1K 6 6 64 6 6 6 183 6 4 6 6 6 
8 2K 6 6 6 6 6 6 3 66 6 2 6 6 
9. 4K 6 9 9 6 9 9 6 32 1 9 6 9 
10. 8K 12 6 26 6 6 6 6 之 6 7 6 6 
11. 16K 9 6 9 9 6 9 9 6 9 2 6 9 
12. 32K 9 6 9 9 6 9 9 6 9 9 6 9 
13. 64K 8 6 32 6 6 6 6 6 6 6 6 6 
14. 128K 6 6 8 6 6 6 6 6 6 6 6 6 
15. 256K 6 6 6 6 6 6 6 6 6 6 6 6 
16. 512K 6 6 6 6 6 6 6 6 6 6 6 6 
17. 1M 6 9 9 6 9 9 6 9 9 6 9 9 
18. 2M 6 9 9 6 9 9 6 9 9 6 9 9 
19.， 4M 6 9 9 6 9 9 6 9 9 6 9 9 
20.， 8M 6 9 9 6 9 9 6 6 9 6 6 9 
21.，16M 9 6 9 9 6 9 9 6 9 2 6 9 
2 
代码 2-56 
了 33 


YY 
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代码 在 实现 trim 功能 的 时 候 ，xzRs 需要 对 spa 增加 一 个 和 也 就 是 和 trim_extent_bytes_max，trim_extent_bytes_min 有 关 的 内 
当前 进行 trim 相关 的 内 容 地 记录 了 ， 这 个 就 是 在 metaslab 中 的 容 ， 最 后 还 有 启动 和 完成 的 时 间 信 息 等 。 
ms_trim， 如 下 所 示 。 如 果 启 动 了 动态 rim， 在 spa 中 会 有 一 个 标记 spa_autorim__ 
t 的 枚 举 为 SPA_AUTOTRIM_ON， 同 时 启动 的 后 台 线程 函数 为 
1 _ struct metaslab { vdev_autotrim_thread ， 而 进行 frim 的 时 间 ， 则 是 在 txg 中 的 事务 
2 人 > 人 站 一 日 
3. range_tree_t *ms_freeing; 执行 完成 之 后 ， 在 metaslab_sync_done 函数 中 进行 判断 ， 如 下 
4. range_tree_t *ms_defer[TXG_DEFER_SIZE]; 所 示 
3 range_tree 七 *ms_trim， 不 。 
6 Uint64 tms disabled; 
7. } _ 
代码 2-57 1._ void 
2._metaslab_sync_done(metaslab_ t *msp，Uuint64 tt txg) 
3， 二 
洲 、 滥 本 4. 。 
在 metaslab 中 有 ms_qisabled 参数 ， 该 参数 的 作用 就 是 希望 5 if (spa_get_autotrim(spa) == SPA_AUTOTRIM_ON) { 

全 、 > 、 过 - im) ; 
阻塞 住 一 些 用 户 修改 请 求 时 的 使 用 。trim 在 实现 时 ， 需 要 记录 哪 0 wa tree， range tree add， msp->0s tan 
些 信 息 呢 ? 这 里 就 是 对 应 vdev_trim.c 文件 中 的 trim_args 结构 体 ， 8 range_tree_walk(msp->ms_freed，range_tree_add， 

有 9. msp->ms_trim); 
如 下 所 示 。 10. 
11. _ } else 
12. range_tree_vacate(msp->ms_trim，NULL，NULL) 
1._ typedef struct trim_args 1{ 13. 小 
2 14.，} 
3 vdev 七 *trim vdev; 代码 2-59 
4. metas1lab 七 *trim_mspy; 
9 range_tree 七 *trim_treey 
6 trim_type 七 rim_typey; 、 会 已 台 乡 四 二 :V 威 尽 4 、 行 癌 鹿 
人 关于 trim 功能 更 具体 的 细节 ， 建 议 感 兴 趣 的 可 以 自行 阅读 
8 uint64 tt trim_extent_bytes_min; zf 的 源码 ， 主 要 内 容 在 vdev_trim.c 中 ， 如 tim 功能 停止 的 函数 
多 enum trim_ flag trim_ flags; 、 
10. 为 vdev_autotrim_should_stop。 
11._ hrtime 七 trim_start 臣 ime; 和 帮 是 
ER E Bytes ， 最 后 提醒 一 下 ， 因 为 rim 的 使 用 不 可 避免 地 会 影响 到 正和 党 
1 trin_angs_t 本 10 性 能 ， 在 生产 环境 下 使 用 时 ， 建 议 先 对 日 常数 据 流量 做 好 对 


照 测 试 ， 运 行 一 段 时 间 后 观察 性 能 的 具体 影响 情况 。 


其 中 需要 知道 哪个 磁盘 的 哪些 空间 需要 进行 rm， 也 就 是 


对 应 tim_vdev，trim_msp 和 trim_tree 这 三 个 参数 ，trim_type 记 
录 的 命令 是 发 起 的 还 是 动态 rim 的 类 型 ， 同 时 还 有 控制 的 速度 ， 


134 135 


= 


深入 理解 文件 系统 原理 和 实践 


3. 文 件 存储 从 单机 到 分 布 式 


前 面 提 到 了 单机 文件 系统 部 分 ， 其 主要 以 难为 主 ， 单 机 文 
件 系统 在 发 展 了 多 年 后 ， 分 布 式 文件 系统 的 兴起 和 对 象 存 储 的 
出 现 ， 对 于 单机 文件 系统 来 说 ， 是 否 是 一 个 挑战 ， 还 是 一 个 蔡 
代 呢 ? 因此 我 们 把 目光 从 单机 转移 到 分 布 式 系统 上 面 来 思考 一 
下 到 底 分 布 式 领域 需要 考虑 哪些 问题 ?又 有 哪些 差异 呢 ? 下 面 
来 一 起 了 解 一 下 。 


3.1 单机 到 分 布 式 的 架构 变化 


我 们 需要 思考 第 一 个 问题 ， 为 什么 需要 分 布 式 ?” 这 个 问题 
相信 对 于 拥有 多 年 工作 经 验 的 人 来 说 ， 都 会 有 非常 多 的 答案 ， 
大 体 来 说 就 是 分 布 式 可 以 保证 单机 物理 机 在 出 现 断 电 或 者 意外 
的 物理 损坏 后 ， 数 据 在 分 布 式 郊 余下 可 以 得 到 安全 保障 。 同 时 
分 布 式 系 统 的 出 现 ， 还 可 以 对 系统 进行 横向 扩展 ， 因 为 单机 系 
统 不 管 性 能 多 么 优越 ， 都 会 受到 单机 物理 硬件 的 限制 ， 如 磁盘 
空间 ，cpu 核 数 和 内 存 空间 等 ， 因 此 分 布 式 的 出 现 可 以 极 大 地 扩 
展 存储 的 发 展 。 


3.1.1 元 数据 中 心 架 构 


当然 对 于 分 布 式 文件 系统 来 说 ， 分 布 式 文件 系统 ， 是 不 是 
单纯 地 把 多 个 单机 节点 组 成 一 个 集群 来 进行 管理 呢 ? 这 里 当然 
不 是 那么 简单 ， 其 如 图 3-1 所 示 。 
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人 


了 


@ 


图 3-1 客户 端 访问 

这 里 需要 解决 一 个 问题 ， 就 是 客户 端 如 何 知 道 要 访问 集群 
哪个 节点 ， 也 就 是 数据 到 底 保 存在 哪里 呢 7 为 了 解决 这 个 问题 ， 
目前 有 两 种 架构 ， 一 是 找 一 个 地 方 保存 文件 的 相关 路 径 信 息 等 ， 
其 中 包括 一 些 元 数据 信息 ， 如 文件 的 大 小 、 权 限 和 名 称 等 ， 当 
客户 端 第 一 次 需要 访问 的 时 候 ， 先 知道 文件 所 在 的 节点 信息 ， 
其 就 可 以 直接 访问 该 节点 ， 保 存 的 地 方 ， 通 常 就 被 称 为 元 数据 
中 心 ， 或 者 元 数据 节点 。 

从 图 3-2 可 以 看 到 ， 集 群 中 的 多 个 节点 都 会 向 元 数据 中 
心 连接 上 报 ， 文 件 进行 创建 的 时 候 ， 在 节点 node N 中 创建 成 
功 之 后 ， 则 上 报 文件 的 元 数据 信息 到 元 数据 节点 中 (假设 称 为 
MetaServer )， 同 时 每 个 节点 的 存活 状态 都 要 上 报 ， 通 稼 情况 下 
数据 是 多 副本 宛 余 的 ， 文 件 通常 使 用 三 副本 保证 数据 安全 ， 当 
其 中 一 个 节点 掉 线 时 ， 则 还 可 以 访问 其 他 剩余 的 副本 节点 进行 
读 写 数据 ， 这 就 是 大 家 所 熟悉 的 多 数 一 致 性 原则 (quorum ) 了 。 
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ES 


MetaServer 


图 3-2 元 数据 节点 

随 着 数据 的 不 断 增 多 ， 可 能 三 五 个 节点 也 不 足以 保存 下 数 
据 了 ， 需 要 不 断 增 加 节点 ， 同 时 元 数据 节点 可 能 也 会 是 一 个 瓶 
有 侨 了 ， 因 此 这 里 就 需要 产生 数据 分 组 的 概念 了 ， 如 图 3-3 所 示 。 


Group 


node 1 node 2 node 3 时 


client 


图 3-3 数据 分 组 

为 了 保证 元 数据 节点 的 数据 安全 ， 这 时 候 也 需要 有 一 个 
备份 节点 来 进行 同步 ， 在 元 数据 宕 机 出 问题 之 后 能 够 保证 
集群 的 平稳 切换 ， 这 里 以 HDFS 为 代表 ， 其 中 NameNode 和 
SecondaryNameNode 的 概念 出 现 了 。 
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当然 数据 的 同步 与 备份 ， 往 往 又 会 受到 效率 和 时 间 的 影响 ， 
有 可 能 正在 同步 备份 的 数据 还 没完 成 ， 但 是 元 数据 节点 已 经 容 
机 了 了， 那么 这 时 候 也 可 能 会 出 现 元 数据 丢失 的 现象 ， 但 这 可 以 
通过 重 试 等 机 制 来 进行 解决 。 

随 着 集群 的 发 展 ， 元 数据 中 心 担任 的 任务 很 重 ， 包 括 探 测 
节点 存活 和 保管 文件 元 数据 信息 等 ， 因 此 为 了 减轻 元 数据 节点 
的 负担 ， 一 些 系 统 会 把 监控 任务 杂 离 出 来 。 当 出 现 网 络 隔离 的 
时 候 ， 若 元 数据 节点 与 其 他 节点 的 网 络 异 常 了 ， 但 是 其 他 节点 
之 间 的 网 络 是 正常 的 ， 即 元 数据 节点 被 网 络 隔离 时 ， 会 导致 节 
点 的 存活 性 判断 存在 问题 ， 这 时 候 引 入 监控 中 心 节点 则 可 以 解 
决 该 问题 ， 如 图 3-4 所 示 。 


Group Monitor ( |) 
node1 node 2 node3 | ( [ ( [ 


MetaServer 上 


站 
MetaServer 
(backup) 


client 


图 3-4 监控 中 心 

对 于 监控 集群 中 心 的 节点 ， 通 党 以 奇数 为 主 ， 主 要 也 是 为 
了 方便 达到 一 致 性 判断 。 即 当 一 个 节点 判断 妇 外 一 个 节点 异常 
或 者 请 求 不 可 达 时 ， 需 要 通过 监控 中 心 的 节点 连接 判断 ， 奋 监 
探 中 心 的 多 数 节 点 都 无 法 连接 到 该 异常 节点 ， 则 可 以 上 报 确认 
该 节点 已 经 异常 了 ， 而 ceph 则 是 这 种 架构 类 型 的 代表 之 一 。 


3.1.2 无 中 心 架 构 


前 面 提 到 分 布 式 系统 的 一 些 架 构 发 展 ， 是 为 了 解决 数据 存 
放 的 访问 问题 ， 因 此 引入 了 元 数据 节点 ， 也 进一步 延伸 出 了 很 
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多 其 他 的 模块 ， 包 括 监控 中 心 等 。 当 然 目 前 分 布 式 系统 中 还 有 
另外 一 条 发 展 路 线 ， 就 是 无 中 心 架构 的 出 现 ， 一 个 文件 节点 是 
否 存在 ， 并 不 一 定 需 要 元 数据 中 心 ， 其 中 以 glusterfs 为 代表 。 

在 glusterfs 中 ， 每 个 数据 的 分 组 是 以 volume 为 基准 的 ， 
个 volume 就 是 一 个 数据 组 ， 可 以 是 副本 ， 也 可 以 是 EC 卷 ， 每 
个 volume 之 间 的 元 数据 在 集群 中 每 个 节点 都 会 被 保存 的 ， 因 此 
实现 了 元 数据 中 心 的 部 分 功能 。 当 然 从 该 架构 的 设计 可 以 了 解 ， 
该 架构 的 设计 ， 随 着 数据 的 增长 ， 之 后 若 需 要 进行 扩容 ， 则 会 
相对 厅 烦 ， 若 volume 信息 较 多 时 ， 需 要 集群 每 个 节点 都 更 新 保 
存 ， 因 此 数据 的 读 取 效 率 相 对 没有 上 述 架 构 高 效 。 

glusterfs 的 无 中 心 架 构 ， 也 有 其 优势 ， 相 对 适合 大 文件 数据 
的 保管 ， 因 为 其 管理 和 配置 得 相对 简单 ， 没 有 引入 过 多 的 节点 
类 型 ， 适 合 一 些 冷 数据 和 大 文件 数据 的 保存 。 同 时 也 适合 一 些 
相对 数据 规模 较 小 的 公司 团队 进行 运 维 。 

另外 为 了 解决 glusterfs 集群 的 部 分 缺 隐 ， 有 公司 团队 会 在 
glusterfs 集群 之 上 , 使 用 etcd 或 者 自 研 系 统 来 增加 一 层 元 数据 层 ， 
以 达到 快速 访问 集群 元 数据 的 效果 ， 如 图 3-5 所 示 。 


glusterfs 1 glusterfs 2 


volume WE 


mode1 mode 2 node3 volume volume 


到 3-5 多 glusterfs 集群 

以 图 3-5 为 例 ， 其 有 多 个 glusterfs 集群 ， 对 于 客户 端 来 说 ， 
并 不 知道 底层 的 数据 到 底 分 布 在 哪个 集群 中 ， 同 时 每 个 集群 也 
可 能 会 有 多 个 不 同 的 volume， 通 过 一 些 集群 层面 的 数据 分 配 策 
略 ， 把 数据 存放 在 多 个 不 同 集群 中 ,方便 一 些 冷 热 数 据 迁 移 和 
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数据 重 平 衡 等 。 

最 后 提示 一 下 ， 对 于 glusterfs 的 使 用 ， 笔 者 更 加 建议 用 于 大 
文件 数据 和 冷 数据 ， 并 不 建议 在 日 常 的 生产 系统 上 使 用 glusterfs 
作为 后 端 存储 。 同 时 自 2023 年 起 ，k8s 方面 目前 已 经 不 再 支持 
glusterfs 地 使 用 了 ， 关 于 这 点 ， 建议 大 家 留意 。 


3.2 分 布 式 下 的 一 致 性 


对 于 分 布 式 系统 ， 我 们 除了 要 关心 其 架构 ， 还 要 考虑 分 布 
式 系统 的 一 致 性 ， 对 于 党 见 的 副本 模式 来 说 ， 通 常 三 副本 是 遇 
到 比较 多 的 一 种 情况 ， 有 了 多 副本 之 后 ， 读 写 时 的 一 致 性 问题 
也 就 随 之 出 现 了 。 但 是 在 考虑 一 致 性 问题 之 前 ， 我 们 需要 先 来 
看 看 客户 端的 数据 传递 方式 问题 ， 也 是 为 了 便于 深入 理解 数据 
一 致 性 问题 。 


3.2.1 数据 广播 和 流 式 传递 


首先 ， 我 们 需要 思考 一 个 问题 ， 客 户 端 向 节点 写 人 数据 时 ， 
是 向 往 三 个 副本 的 数据 节点 写 人 ， 还 是 写 和 人 主 节点 〈leader )， 
然后 由 主 节点 往 后 传递 到 其 他 节点 〈follower ) 呢 ? 

下 面 和 来 看 看 这 两 种 方式 的 区 别 和 优 缺 点 。 


图 3-6 广播 模式 
图 3-6 所 示 的 方式 被 称 为 广播 模式 ， 数 据 的 广播 模式 就 意 
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味 着 客户 端 需要 自行 向 多 副本 节点 发 送 数据 ， 并 且 做 好 消息 传 
递 的 可 和 做 性 与 稳定 性 的 管理 ， 例 如 当 其 中 一 个 副本 节点 出 现 掉 
线 宕 机 的 情况 ， 或 者 消息 异常 要 进行 重 试 等 ， 相 对 来 说 ， 这 样 
的 方式 比较 直接 明了 ， 但 是 优 缺 点 也 会 比较 明显 。 
其 中 比较 明显 的 弊端 之 一 就 是 客户 端 发 送 写 入 请 求 时 数据 
传递 数量 很 大 ， 导 致 占用 客户 端的 流量 出 口 带宽 。 因 为 存储 和 
数据 库 的 数据 类 型 不 同 ， 数 据 库 是 一 条 条 SQL 语句 ， 例 如 select 
等 ， 请 求 中 并 没有 带 上 大 量 的 数据 ， 但 是 存储 中 需要 携带 大 量 
的 写 人 数据， 例如 视频 文件 、 图 片 、 压 缩 文 件 等 ， 这 些 数 据 可 
能 较 大 ， 有 些 甚 至 会 达到 几 十 上 百 吉 字 节 大 小 ， 而 若 都 由 客户 
端 向 数据 点 发 送 数据 ， 那 么 需要 客户 端 把 发 送 三 次 数据 到 节 
点 中 (如 未 特别 指明 ， 多 副本 通常 默认 三 副本 )， 其 对 于 客户 端 
的 出 口 带宽 流量 占用 则 比较 大 。 同 时 还 要 注意 到 客户 端 和 数据 
节点 之 间 的 网 络 并 不 一 定 是 在 同一 局 域 网 内 ， 因 此 可 能 还 会 受 
到 其 他 网 络 距离 的 影响 等 。 

当然 广播 模式 的 好 处 也 是 非常 明显 的 ， 关 于 其 好 处 ， 了 解 
完 流 式 传递 的 静 端 后 再 进行 分 享 ， 这 样 会 有 更 加 深刻 的 理解 。 


leader 


图 3-7 流 式 传递 
图 3-7 所 示 的 模式 被 称 为 流 式 传递 ， 其 中 客户 端 需要 先 疝 
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配置 中 心 了 解 整个 系统 的 拓扑 结构 ， 哪 个 节点 是 主 节 点 〈leader， 
也 有 一 些 被 称 为 masterslave， 但 是 这 里 默认 称 为 leader )， 客 户 
端 向 leader 节点 发 送 请 求 和 数据 ， 交 由 leader 节点 向 其 他 两 个 副 
本 贡 点 发 送 数据 (follower )， 最 后 成 功 后 由 leader 节点 返回 写 人 
成 功 的 消息 报 文 。 

流 式 传递 的 模式 ， 需 要 有 一 个 系统 配置 中 心 来 管理 整个 系 
统 的 拓扑 结构 , 通常 会 使 用 到 zookeeper 或 者 etcd 这 些 开 源 系 统 ， 
需要 额外 增加 多 一 个 组 件 或 者 模块 功能 来 维护 ， 同 时 也 就 意味 
着 对 于 这 样 的 模式 ， 并 不 适合 使 用 无 中 心 架构 系统 。 

流 式 传递 的 好 处 也 是 非常 明显 的 ， 首 先 在 数据 写 和 的 时 候 ， 
由 leader 节点 来 向 后 传递 ， 可 以 解决 客户 端 各 数据 节点 传递 数 
据 的 出 口 带宽 占用 问题 ，leader 与 follower 节点 之 间 通 常 都 是 一 
个 局 域 网 内 的 服务 器 节点 ， 并 且 服 务 需 机 房 的 网 络 带宽 也 是 相 
对 较 高 的 ， 因 此 数据 传递 的 速度 往往 会 比较 快 。 

这 种 模式 的 出 现 ， 还 可 以 解决 多 客户 端 并 发 写 和 人 同一 个 文 
件 的 问题 ， 该 问题 的 出 现 主要 是 因为 奉 有 多 个 客户 端 同时 写 人 
一 个 文件 时 ， 在 广播 模式 下 ， 有 可 能 会 因为 写 入 的 数据 到 达 数 
据闻 点 的 先后 顺序 不 同 ， 导 致 写 人 的 数据 被 相互 覆盖 掉 ， 例 如 
当 elient 1 要 写 和 数据 文件 iel 的 数据 为 a， 当 a 刚 写 和 人 node2 
时 ， 可 能 才 达 到 nodel， 与 此 同时 ， 如 果 此 时 有 另外 一 个 客户 端 
client2 也 要 写 入 该 文件 ， 数 据 为 b， 那 么 知情 况 相 反 ， 即 数据 b 
刚 写 入 nodel ， 准 备 到 达 node2， 这 时 候 就 会 使 两 个 客户 端 之 间 
的 数据 相互 覆盖 了 。 

对 于 这 个 问题 的 解决 方法 也 很 简单 ， 只 要 连接 打开 文件 时 
申请 到 文件 修改 权限 即 可 。 下 面 先 来 看 看 流 式 传递 的 客户 端 并 
发 情况 ， 如 图 3-8 所 示 。 
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到 3-8 流 式 传递 客户 端 并 发 冲突 


若 出 现 了 两 个 客户 端的 并 发 写 人 时 ，leader 节点 可 以 通过 获 
取 当 前 文件 的 信息 ， 如 知道 当前 是 client 1 已 经 申请 到 该 文件 的 
写 和 权限， 那么 可 以 暂时 拒绝 接受 client 2 的 文件 写 和 人 和 修改 。 

若 leader 节点 的 网 络 出 现 故 障 ， 或 者 节点 宕 机 的 话 ， 客 户 
端 节点 是 无 法 感知 到 正在 写 和 的 文件 数据 在 其 他 节点 的 情况 ， 
需要 进行 leader 切换 之 后 ， 根 据 配 置 中 心 节 点 选择 出 新 的 leader 
节点 ， 重 新 连接 获取 相关 信息 才能 重新 知道 文件 的 具体 情况 ， 
这 点 也 是 广播 模式 带 来 的 优势 之 一 了 。 同 时 知 网 络 频繁 抖动 的 
话 ， 也 有 可 能 会 出 现 频繁 的 leader 切换 ， 在 极端 情况 下 ， 也 会 
带 来 复杂 的 文件 异常 问题 ， 对 于 文件 的 修复 也 是 一 个 非常 及 烦 
的 过 程 。 关 于 分 布 式 系统 下 的 数据 文件 异 浓 修复 问题 ， 后 面 再 
具体 分 享 。 

不 管 是 流 式 传递 还 是 广播 模式 ， 其 实 并 不 是 固定 的 ， 也 就 
是 说 两 种 模式 之 间 是 可 以 进行 切换 的 ， 若 数据 进行 流 式 传递 ， 
leader 发 现 其 中 一 个 follower 节点 有 问题 时 ， 可 能 就 会 自动 切换 
到 广播 模式 了 。 同 时 对 于 leader 往 follower 发 送 数 据 ， 这 里 也 
有 两 种 不 同 的 方式 ， 一 是 leader 向 下 游 其 中 的 一 个 follower 节 
点 发 送 ， 该 节点 再 向 下 游 发 送 ; 二 是 leader 广播 向 其 他 所 有 的 
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follower 节点 发 送 数据 ， 如 图 3-9 所 示 。 


leader 


图 3-9 leader 往 follower 发 送 数据 模式 对 比 

对 于 这 两 种 方式 的 差异 ， 有 了 前 面 提 到 的 内 容 ， 相 信 大 家 
也 能 很 好 地 理解 二 者 之 间 的 优 缺 点 。 同 时 各 位 也 可 以 带 着 这 样 
的 内 容 去 感受 一 下 不 同 的 开源 系统 项 目 ， 在 这 方面 的 实现 和 具 
体 细 节 差 异 ， 相 信 会 有 更 深刻 的 理解 和 认识 。 


3.2.2 多 数 一 致 性 


在 了 解 了 客户 端 广播 和 流 式 传递 模式 差异 之 后 ， 接 下 来 关 
注 一 下 分 布 式 数据 的 一 致 性 问题 ， 但 是 在 了 解 该 问题 之 前 ， 需 
要 先 来 了 解 一 下 一 次 完整 的 写 信 请求， 在 分 布 式 系统 中 的 流程 ， 
client 先 向 MetaServer 节点 获取 到 系统 的 拓扑 结构 图 后 ， 主 要 流 
程 如 下 。 

(1) client 找到 leader 节点 ， 打 开 文 件 并 且 写 入 数据 。 

(2 ) leader 节点 接收 到 请 求 后 ， 向 follower 节点 传递 并 写 入 
数据 , 同时 也 写 入 本 地 。 

(3) 写 入 成 功 后 ,leader 节点 向 MetaServer 发 送 文件 元 数据 
信息 , 成 功 后 回复 客户 端 节点 数据 写 入 成 功 。 
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MetaSever 


aa 
图 3-10 数据 写 入 流程 


这 里 对 于 第 二 点 ， 当 leader 节点 向 follower 节点 中 写 人 (图 
3-10 中 的 node2 和 node3 时 )， 其 就 产生 了 一 个 问题 ，leader 的 
数据 向 follower 传递 之 后 ， 还 有 本 地 也 要 写 人 ,那么 这 里 是 否 要 
等 竺 所 有 的 写 和 都 完成 了 才 算 成 功 呢 7? 当然 不 是 ， 通 常 只 要 多 
数 节点 成 功 之 后 即 可 返回 ， 也 就 是 大 家 常 听 到 的 quorum 原则 ， 
对 于 三 副本 来 说 ， 只 要 写 人 其 中 两 个 副本 节点 〈 通 稼 是 leader 
本 地 和 其 中 一 个 follower 节点 ) 即 可 认为 写 人 成功 了 。 

这 里 有 一 些小 细节 需要 留意 ， 通 稼 来 说 ， 数 据 写 人 本 地 是 
比较 快 的 ， 因 此 quorum 条 件 的 满足 ， 大 部 分 情况 下 是 本 地 写 入 
成 功 了 ， 再 加 上 其 中 一 个 follower 节点 写 人 成 功 即 可 ， 但 是 也 有 
可 能 当 leader 节点 有 大 量 数据 请 求 ， 或 者 本 地 写 和 的 速度 较 慢 
时 ， 会 影响 其 他 follower 节点 的 完成 情况 。 这 种 情况 的 出 现 ， 会 
使 leader 节点 的 数据 落后 于 follower 节点 ， 客 户 端 读 取 文 件 的 时 
候 ，leader 节点 也 并 不 一 定 都 是 最 新 的 数据 。 

这 里 还 需要 和 留意， 向 leader 和 follower 节点 写 人 数据 ， 写 人 
成 功 是 指 把 数据 写 人 哪里 呢 ? 通常 情况 下 ， 一 般 的 写 和 人 请求 都 
是 异步 写 和 信 ， 也 就 是 数据 写 人 缓存 中 即 可 认为 成 功 ， 帮 数据 是 
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三 副本 ， 每 个 节点 的 数据 会 定时 或 者 周期 累积 刷新 持久 化 到 磁 
盘 ， 会 增加 数据 的 元 余 来 保证 安全 性 ， 极 端 情况 下 ， 其 他 两 个 
节点 同时 宕 机 了 ， 只 要 有 一 个 节点 的 数据 最 终 写 人 磁盘 了 ， 那 
么 其 也 是 有 一 份 完 整 的 数据 。 

前 面 提 到 的 leader 向 follower 写 人 数据 ， 这 是 文件 的 数据 ， 
而 写 和 人 数据 成 功 后 ， 要 向 元 数据 中 心 (MetaServer ) 中 写 人 文件 
的 元 数据 信息 ， 其 会 记录 文件 的 大 小 ， 创 建 时 间 等 信息 ， 文 件 
的 元 数据 信息 写 和 人， 往往 具有 强 一 致 性 ， 也 就 是 必须 保证 有 数 
据 落 盘 ， 因 为 文件 的 元 数据 信息 是 非常 关键 的 ， 这 也 是 分 布 式 
与 单机 系统 的 差异 之 一 。 

最 后 有 一 个 quorum NRW 的 数值 之 间 的 比较 问题 来 分 享 一 
下 。 其 中 N 表示 副本 数 ， 通 党 是 三 副本 ， 即 N=3; 双 表示 成 功 
完成 双 个 副本 更 新 ， 才 完成 写 人 操作 ; R 表示 读 取 一 个 数据 对 
象 时 需要 读 R 个 副本 。 根 据 其 数值 的 不 同 ， 有 用 一 些 数值 关系 
来 表示 系统 的 一 致 性 情况 。 

> 当 双 +R>N 的 时 候 ， 对 于 客户 端 来 讲 ， 整 个 系统 能 
保证 强 一 致 性 ， 一 定 能 返回 更 新 后 的 那 份 数据 。 

> 当 台 +R<N 的 时 候 ， 对 于 客户 端 来 讲 ， 整 个 系统 不 
能 保证 强 一 致 性 ， 可 能 会 返回 上 数据， 但 是 也 可 以 相对 优化 读 
写 请 求 延 迟 。 


3.2.3 两 副本 可 靠 吗 


前 面 提 到 的 分 布 式 环境 下 的 数据 通常 是 三 副本 的 ， 但 是 对 
于 三 副本 来 说 ， 一 份 数据 写 人 三 个 节点 ， 有 效 利 用 率 只 有 三 分 
之 一 ， 对 于 一 些 相对 不 太 重 要 的 数据 来 次， 三 副本 所 带 来 的 存 
储 空 间 开销 是 比较 大 的 ， 因 此 就 会 有 一 些 新 的 思考 ， 能 和 否 使 用 
两 副 来 代替 三 副本 ? 

对 于 两 副本 的 出 现 ， 不 管 是 数据 的 广播 模型 还 是 流 式 传递 ， 
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这 里 都 是 减少 了 一 个 数据 节点 ， 对 于 数据 的 流 式 传递 来 说 ， 可 
能 在 极端 情况 下 , 会 产生 异常 情况 ,下 面 来 简单 看 看 , 如 几 3-11 
所 示 。 


leader 
Te 
leader 
[| 一 一 
leader 


图 3-11 两 副本 模式 数据 写 入 图 
> 在 tl 时刻， 客户 端 向 leader 节点 发 送 数 据 ， 然 后 准备 传 
递 到 follower 节点 。 
> 在 蕊 时 刻 ，nodel 节点 出 现 问题 ， 导 致 数据 无 法 传送 过 
去 , 切换 leader 为 node2 并 写 入 数据 。 

> 在 t 时 刻 再 次 切换 leader 时 ， 重 新 恢复 为 node1， 同 时 
node2 失 联 。 

在 这 样 的 极端 情况 下 ， 乔 短 时 间 内 频繁 切换 leader， 如 果 
按照 一 份 数据 写 人 成 功 即 可 ， 那 么 这 时 候 必 然 会 导致 数据 之 间 
出 现 互 相 才 盖 的 情况 ， 并 且 可 能 没有 一 个 节点 会 有 完整 的 数据 。 
因此 为 了 解决 这 样 的 问题 ， 一 些 系 统 需要 保证 两 副本 节点 都 写 
和信 成 功 才 算 完 成 。 

同时 因为 两 副本 节点 可 能 在 其 中 一 个 节点 出 现 罕 机 或 者 异 
笛 后 ， 会 使 文件 元 数据 信息 不 完整 ， 因 此 在 glusterfs 中 ， 为 了 解 
决 该 问题 ， 增 加 文件 元 数据 的 宛 余 度 ， 会 额外 增加 一 个 节点 叫 
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仲裁 节点 (arbiter )， 同 时 也 可 减少 数据 脑 裂 的 风险 。 
下 面 来 简单 感受 一 下 glusterfs 中 仲裁 节点 的 使 用 ( 这 里 使 用 
的 版 本 是 glusterfs 9.x )。 


1 [root@gfs63 ~]# glLuster volume create test-arbiter replica 2 arbiter 
1 192.168.6.{116,111,112}:/gLusterfs/test-arbiter force 


2. Volume create: test-arbiter: Success: please start the Volume to 
access data 


[rootQgfs63 ~]# 8gLuster Volume start test-arbiter 


volume start: test-arbiter: Success 
[rootQgfs63 ~]# 8gLuster volLume info test-arbiter 


Volume Name: test-arbiter 

Type: Rep1licate 

9._ Volume ID: cef1d56a-6666-456f-a82e-64fb8b99c626 
10. status: Started 

11.， Snapshot Count: 6 

12.，Number of Bricks: 1 X (2+1) =3 

13. Transport-type: tcp 

14.，Bricks : 

1$.，Brick1: 192.168.6.116:/glusterfs/test-arbiter 
16. Brick2: 192.168.6.111:/glusterfs/test-arbiter 
17. Brick3: 192.168.6.112:/glLusterfs/test-arbiter (arbiter) 
18.Options_ Reconfigured : 

19._ cluster.granular-entry-heal: on 
20.，storage.fips-mode-rchecksum: on 

21.， transport.address-family: inet 

22.，nfs.disable: on 
23.，performance.client-io-threads: off 

代码 3-1 glusterfs 带 仲裁 节 点 的 volume 创建 


可 以 看 到 在 上 述 代 码 中 ，Brick3 节点 带 有 一 个 arbiter 的 标 
志 ， 该 标志 就 说 明 该 节点 是 仲裁 节点 ， 该 节点 并 不 会 保存 数据 ， 
但 是 会 保存 与 文件 的 元 数据 相关 的 信息 。 

为 了 更 好 地 感受 ， 下 面 进 行 简 单 的 操作 来 查看 一 下 。 
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1. [rootQ@gfs63 ~]# mkdir -p /mnt/test-arbiter 


2. [rootQ@gfs63 ~]# mount -t glusterfs 192.168.6.116:test- 
arbiter /mnt/test-arbiter 


3. [rootQOgfs63 ~]# dd if=/dev/zero of=/mnt/test-arbiter/1l. 
txt bs=64k count=1666 


1666+6 records in 


1666+6 _ records out 


4 
号 : 
6. 65536666 bytes (66 MB) copied，68.566256 s，116 MB/s 
7 
8 


[rootQ@gfs63 ~]# du -sh /glLusterfs/test-arbiter/ 


9._ 16K /glusterfs/test-arbiter/ 
10. 
11. [rootQ@gfs62 ~]# du -sh /glusterfs/test-arbiter/ 
12.，63M /glusterfs/test-arbiter/ 
13。 
14. [rootQ@gfs61 ~]# du -sh /glusterfs/test-arbiter/ 
15.63M /glusterfs/test-arbiter/ 
代码 3.2 


最 后 需要 留意 一 下 ，glusterfs 中 对 仲裁 节点 的 类 型 做 了 两 种 
区 别 ， 分 别 是 客户 端 模式 和 服务 端 模式 ， 这 里 会 涉及 一 些 具体 
的 参数 差异 ， 建 议 感 兴趣 的 朋友 可 以 自行 查阅 官网 来 详细 了 解 
和 测试 一 下 。 


3.3 数据 和 请 求 负 载 均 衡 


了 解 了 数据 一 致 性 问题 后 ， 下 面 就 要 考虑 另外 一 个 问题 ， 
关于 分 布 式 系统 下 的 数据 和 请 求 负载 均衡 问题 。 这 个 问题 对 于 
单机 系统 来 说 通常 遇 到 的 比较 少 ， 而 分 布 式 下 则 需要 有 更 多 的 
考虑 ， 而 在 讲解 数据 均衡 问题 之 前 ， 需 要 先 来 了 解 一 下 数据 分 
组 的 leader 集中 所 带 来 的 问题 。 


3.3.1 leader 分 散 


这 里 要 思考 的 问题 是 ， 如 果 一 个 机 融 下 面 有 大 量 的 磁盘 ， 
这 


那么 这 些 不 同 的 磁盘 可 能 属于 不 同 的 数据 分 组 ， 其 就 可 能 有 多 
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个 数据 分 组 的 leader 都 是 在 相同 的 节点 下 ， 如 图 3-12 所 示 。 


leader 
disk 1 disk 3 
disk 4 disk 6 
disk 7 disk 9 
node 1 node2 node3 


名 3-12 

从 前 面 的 内 容 可 以 了 解 ，leader 节点 需要 分 发 数据 请 求 到 
follower 节点 中 ， 同 时 还 要 在 请 求 成 功 或 者 失败 后 ， 返 回 客户 端 
请 求 。 相 对 来 说 ，leader 节点 的 性 能 压力 会 比 其 他 节点 要 高 ， 而 
一 旦 大 量 数据 分 组 的 leader 集中 在 一 个 节点 上 ， 可 能 会 导致 该 
节点 的 系统 负载 较 高 ， 容 易 出 现 系 统 宕 机 或 者 卡 死 等 现象 ， 为 
了 解决 这 个 问题 ， 需 要 对 leader 节点 进行 打 散 处 理 ， 通 常 的 做 
法 是 对 其 进行 随机 或 者 轮训 分 配 等 ， 如 图 3-13 所 示 。 
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disk 3 


leader 


disk 6 


leader 


图 3-123 

在 系统 经 过 长 时 间 的 运行 后 ， 会 出 现 部 分 节点 的 罕 机 ， 
leader 节点 切换 ， 其 又 会 出 现 大 量 leader 集中 在 某 个 节点 上 ， 这 
时 候 通常 需要 手动 设置 重新 调整 数据 分 组 的 leader 节点 ， 当 然 
对 于 这 种 情况 ,在 生产 环境 下 建议 在 较 少 的 数据 流量 下 进行 操 
作 ， 因 为 一 次 leader 切换 的 时 间 成 本 是 比较 高 的 ， 需 要 向 配置 
中 心 告知 ， 同 时 为 了 误 判 ， 有 些 系统 还 会 使 用 监控 中 心 来 进行 
二 次 确认 等 。 另 外 手动 进行 leader 切换 也 需要 有 相应 的 命令 支 
持 的 。 


3.3.2 数据 扩容 和 重 平衡 


对 于 一 个 存储 系统 来 说 ， 当 每 个 分 组 的 数据 容量 使 用 到 一 
定 程度 时 ， 都 不 可 避免 地 要 考虑 如 何 增加 新 的 存储 空间 。 对 于 
增加 新 的 存储 空间 通常 有 两 种 办 法 ， 一 是 选择 数据 扩容 ， 二 是 
选择 直接 增加 一 组 新 的 数据 分 组 。 对 于 这 两 种 方式 都 有 相应 的 
优 缺点 ， 下 面 来 探讨 一 下 数据 的 扩容 问题 。 

对 于 数据 的 扩容 问题 ， 在 单机 文件 系统 中 ,通常 是 添加 一 
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个 或 多 个 磁盘 进入 一 个 存储 池 里 ， 而 在 分 布 式 的 三 副本 中 ， 往 
往 添加 的 磁盘 个 数 ， 要 和 副本 个 数 成 倍数 关系 ， 这 样 难以 出 现 
数据 倾斜 ， 同 时 也 减轻 了 数据 写 人 时 ， 需 要 考虑 的 磁盘 权重 比 
例 等 问题 的 复杂 度 。 

而 在 glusterfs 当中 ， 如 果 glusterfs 的 volume 是 使 用 heketi 
创建 的 〈 一 个 管理 工具 ， 目 前 已 经 暂停 维护 ， 以 前 是 glusterfs 官 
方 推荐 的 )， 那 么 就 无 法 正 稼 地 使 用 quota 进行 容量 限制 了 。 底 
层 使 用 lvm2 的 时 候 ， 如 果 要 扩 缩 容 ， 有 两 种 办 法 ， 一 是 对 底层 
的 vg 和 T 进行 处 理 , 但 是 这 种 方法 风险 比较 高 ,一 旦 操作 不 慎 ， 
会 直接 影响 原来 的 数据 ， 而 且 改 变 底层 的 台 和 Tv 上 容量， 信息 还 
需要 同步 到 上 层 的 应 用 中 ,会 比较 采 烦 。 

二 是 使 用 glusterfs 的 add-brick 功能 ， 也 就 是 通过 增加 数据 
贡 点 的 方式 来 进行 扩 缩 容 处 理 ， 下 面 来 了 解 一 下 。 


rootQ@gfs61:~# gluster volume info test-event 


Volume Name: test-event 

Type: Distribute 

Volume ID: 4ff63ab9-561a-4c32-a4b9-66c5bda6c6e9 
Status: Created 

Snapshot Count: 6 

Number of Bricks: 1 

9. Transport-type: tcp 

10. Bricks : 

11.， Brick1: 16.6.12.9:/glusterfs/test-event 
12.，Options_Reconfigured : 

13.，nfs.disable: on 
14.，transport.address-family: inet 

15$. storage.fips-mode-rchecksum: on 


名 | 汪 | 枯 | 罗 攻 | 从 车 


18.， rootQ@gfs61:~# gluster Volume add-brick test-event 16.6.12.2:/ 
glusterfs/test-event force 
19. Volume add-brick: success 


21.，rootQ@gfs61:~# glLuster Volume info test-event 
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23. Volume Name: test-event 


24.， Type: Distribute 


25. Volume ID: 4ff63ab9-561a-4c32-a4b9-66c5bda6c6e9 


26. Status: Created 


27.，Snapshot Count: 6 


28.， Number of Bricks: 2 


29. Transport-type: tcp 


30.，Bricks : 


31.，Brick1: 16.6.12.9:/glusterfs/test-event 


32.，Brick2: 16.6.12.2:/glusterfs/test-event 


33.， Options Reconfigured : 


34.，nfs.disable: on 
35.，transport.address-family: inet 


36.，storage.fips-mode-rchecksum: on 


代码 3-3 


这 里 有 一 个 单 brick (brick 可 以 理解 为 对 应 的 副本 节点 ) 的 
卷 test-event 使 用 了 add-brick 进行 扩容 。 对 于 这 样 的 扩容 方 
式 ， 不 可 避免 地 要 考虑 是 否 要 进行 数据 重 平 衡 (rebalance )， 
为 可 能 之 前 旧 的 节点 数据 比较 多 ， 而 新 添加 的 节点 数据 很 少 。 
glusterfs 采用 的 是 哈 硕 的 方式 ， 可 能 会 出 现 数据 倾 斜 的 问题 。 这 
一 点 是 要 非常 注意 的 ， 是 扩容 后 的 一 个 潜在 隐患 问题 。 

为 了 解决 这 个 问题 ，glusterfs 提供 了 手动 进行 重 平衡 的 命 
令 ， 如 下 所 示 。 


1 rootQgfs61:/mnt/rebalance-test# 8gLuster Volume rebalance 
rebalance-test start 


volume rebalance: rebalance-test: Success: Rebalance on 


了 


4. rebalance-test has been started successfully. Use rebalance 
status_ command to _ check status of the rebalance process . 


代码 3-4 


当然 对 于 很 多 知名 的 开源 存储 系统 ， 如 glusterfs 和 ceph， 
都 有 对 应 的 扩容 命令 ， 而 扩容 后 若 进行 数据 重 平衡 ， 则 会 延伸 
出 一 个 问题 ， 无 法 预 佑 数据 重 平衡 的 时 间 。 
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某 个 系统 扩容 之 后 ， 数 据 重 平衡 时 间 很 长 ， 动 辑 以 天 甚至 
以 周 为 单位 ， 这 对 业务 系统 的 影响 很 大 ， 同 时 在 数据 重 平衡 过 
程 中 ， 对 系统 的 性 能 影响 也 不 小 。 

为 什么 会 出 现 这 样 的 问题 呢 ? 一 个 重要 的 原因 是 数据 在 重 
平衡 的 时 候 ， 需 要 重新 计算 数据 的 分 布 ， 同 时 可 能 会 把 大 量 的 
旧 数 据 迁 移 到 新 的 节点 中 ， 同 时 也 要 更 新 元 数据 中 心 的 信息 等 。 
另外 在 数据 重 平 衡 时 ， 业 务 也 要 能 够 保证 正常 读 写 ， 因 此 可 能 
对 于 不 同 的 系统 ， 在 重 平衡 时 会 做 相应 的 数据 保护 ， 例 如 大 有 
正在 读 写 的 数据 ， 会 暂停 数据 迁移 ， 而 已 经 正在 迁移 的 数据 ， 
需要 先 保证 数据 迁移 完成 再 进行 修改 ， 只 能 允许 读 取 等 。 此 外 
如 果 在 数据 重 平衡 过 程 中 ， 出 现 了 节点 宕 机 的 情况 ， 那 么 必然 
会 增加 数据 迁移 的 复杂 度 和 系统 处 理 难度 ， 也 会 延迟 数据 重 平 
衡 的 完成 时 间 ， 若 节点 罕 机 时 间 过 长 ， 甚 至 会 导致 重 平 衔 任务 
无 法 完成 执行 。 

相对 于 数据 节点 的 扩容 ， 还 有 一 种 比较 好 的 解决 办 法 是 增 
加 数据 分 组 ， 对 于 三 副本 为 一 组 的 数据 分 组 来 说 ， 不 会 再 对 该 
分 组 进行 扩容 ， 只 会 新 增加 一 个 相同 的 三 副本 分 组 。 对 于 这 样 
的 方式 ， 需 要 上 层 业 务 来 自行 维护 好 数据 写 人 的 情况 ， 或 者 通 
过 客户 端 来 对 不 同 数据 分 组 的 磁盘 容量 权重 进行 排序 等 ， 优 先 
把 新 数据 写 入 新 添加 的 数据 分 组 中 ， 这 样 的 系统 扩容 方式 ， 相 
较 于 前 面 ， 会 减少 很 多 运 维 上 的 有 麻烦。 如 果 数 据 是 有 规律 的 ， 
例如 周期 性 的 视频 文件 数据 ， 可 以 提前 规划 好 下 一 个 时 间 周 期 ， 
例如 以 每 周 为 单位 ， 当 前 周 的 数据 写 入 当前 的 数据 分 组 中 ， 这 
样 的 方式 会 减少 一 些 运 维 难度 ， 但 是 需要 提前 评估 好 数据 容量 
情况 。 

最 后 提醒 一 下 ， 既 然 有 数据 的 扩容 ， 那 么 必然 也 会 有 对 应 
的 缩 容 ， 虽 然 缩 容 的 情况 相对 少见 ， 但 是 在 glusterfs 中 也 提供 了 
相应 的 命令 ， 也 就 是 remove-brick。 一 旦 执行 了 数据 的 缩 容 ， 会 


155 


以 


深入 理解 文件 系统 原理 和 实践 


自动 进行 数据 重 平衡 ， 这 一 点 是 需要 留意 的 。 


3.4 EC 卷 


随 着 互联 网 的 不 断 发 展 ， 大 数据 时 代 下 ， 数 据 量 越 来 越 庞 
大 ， 也 让 很 多 分 布 式 存 储 系统 对 数据 空间 的 焦虑 问题 越 来 越 严 
重 ， 同 时 也 为 了 闻 省 存储 空间 ， 达 到 节省 成 本 的 目的 ， 急 需 一 
种 高 效 的 分 布 式 卷 来 进一步 节省 存储 空间 ， 这 时 候 EC 卷 就 逐渐 
被 大 众 所 认 识 和 了 解 。 


3.4.1 背景 及 原理 


在 分 享 EC 卷 之 前 ， 想 先 分 享 一 下 分 布 式 条 融 卷 。 顾 名 思 
义 ， 所 谓 的 条 带 卷 ， 就 是 简单 地 把 数据 拆 分 成 均等 的 多 份 数 据 
分 片 〈stripe )， 从 而 达到 节省 空间 并 利用 多 个 分 片 节点 I0 读 写 
并 发 的 能 力 ， 但 是 对 于 分 布 式 条 人 带 卷 ， 其 中 傍 来 的 一 个 问题 是 
无 法 保证 数据 的 元 余 和 安全 性 ， 也 就 是 说 当 部 分 节点 出 现 罕 机 
后 ， 可 能 会 使 数据 无 法 挽回 ， 这 是 存储 系统 无 法 容 恳 的 底线 。 
而 glusterfs 在 以 前 的 历史 旧版 本 中 , 也 曾经 使 用 和 出 现 过 条 带 卷 。 
目前 lustre 系统 中 ， 也 有 该 应 用 。 

EC 卷 和 分 布 式 条 伴 卷 的 不 同 之 处 在 于 EC 卷 利 用 的 是 纠 删 
码 原 理 (erasure coding，EC )， 在 对 数据 进行 拆 分 之 前 ， 需 要 对 
数据 进行 编码 ， 计 算出 校 验 码 ， 分 别 存储 到 不 同 节点 上 ， 知 其 
中 节点 出 现 罕 机 时 ， 还 可 以 保证 数据 的 完整 性 。 

纠 删 码 通常 使 用 的 原理 是 Reed-Solomon (RS ) 码 ， 这 是 存 
储 系统 较为 常用 的 一 种 纠 删 码 ， 它 有 k 和 m 两 个 参数 ， 记 为 RS 
(k，m) 上 个 数据 块 组 成 一 个 向 量 D 被 乘 上 一 个 生成 矩阵 B 从 
而 得 到 一 个 数据 向 量 ， 该 向 量 由 个 数据 块 和 nm 个 校 验 块 构成 。 
如 果 一 个 数据 块 竺 失 ， 可 以 通过 一 系列 计算 来 恢复 出 丢失 的 数 
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据 块 。RS (k,，m ) 最 多 可 容 奶 mm 个 的 块 (包括 数据 块 和 校 验 
块 ) 丢失 。 

RS 编码 的 原理 是 如 何 求 可 逆 和 矩阵 的 问题 ， 如 果 把 数据 看 成 
一 个 很 大 的 矩阵 〈 大 家 可 以 简单 回忆 一 下 线性 代数 )， 那 么 如 何 
保证 矩阵 是 可 闭 的 ， 并 且 如 何 求解 矩阵 则 是 关键 。 对 于 前 者 ， 
通 澡 会 把 矩阵 构建 成 一 个 范 德 莹 矩阵 或 者 柯 西 矩 阵 ， 而 后 者 则 
是 使 用 伽 罗 瓦 域 来 进行 解决 。 本 书 并 不 是 专门 讲解 RS 编码 原理 
的 ， 因 此 如 果 想 更 进一步 了 解 RS 编码 的 数学 原理 ， 感 兴趣 的 朋 
友 可 以 在 网 上 自行 查阅 相关 资料 或 论文 。 

ceph 中 的 EC 编码 是 以 插件 的 形式 来 提供 的 ， 目 前 默认 使 
用 的 是 Jerasure 库 。 除 了 Jerasure， ceph 中 还 有 isa 和 lrce 等 方式 ， 
而 isa 则 是 英特尔 提供 的 EC 库 ， 只 适用 于 其 上 的 cpu。 下 面 来 
感受 一 下 ceph 中 的 EC 命令 参数 。 


1._ ceph osd erasure-code-profile set {fname} \\ 
2 plugin=Jjerasure \ 

3: k={data-chunks}\\ 
4 
5 


m={coding-chunks} \ 


technique={reed_sol _van|reed_sol_r6_ op|cauchy_orig|cauchy_good| 
liberation|blaum_roth|1iber8tion} \ 
6 [crush-root={froot}] 和 \\ 
滑 [crush-failure-domain={bucket-type}] 和 \\ 
8. [crush-device-class={fdevice-class}] 和 
9 [directory={directory}] \ 
10. [--force] 


代码 3-5 


对 于 HDFS， 目 前 也 提供 了 纠 删 码 功能 (hadoop 3.x 版 本 )， 
其 中 常用 的 参数 有 RS-3-2-1024K，RS-6-3-1024K 等 ， 以 RS- 
6-3-1024K 为 例 ，RS 代表 使 用 了 RS 算法 压缩 ，6 代表 6 个 原始 
数据 块 ， 分 别 存 在 6 个 不 同 的 DataNode 节点 中 (数据 节点 ); 3 
代表 3 个 校 验 块 ， 也 是 存在 不 同 的 DataNode 节点 中 ， 表 示 最 多 
容忍 3 个 节点 的 块 丢失 。 同 时 还 需要 留意 的 是 ， 如 果 技 失 的 是 
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校 验 块 的 数据 ， 那 么 并 不 影响 正常 文件 的 读 写 ， 但 是 如 果 丢 失 
的 是 原始 数据 块 ， 那 么 需要 读 取 校 验 块 中 的 数据 进行 解压 重新 
恢复 数据 。 


3.4.2 EC 和 多 副本 差异 


对 于 下 C 卷 来 说 ， 其 优 缺 点 也 是 非常 明显 的 。 其 中 优点 是 
EC 卷 在 写 人 大 文件 时 ， 可 以 有 效 利 用 好 文件 分 片 多 节点 的 IO 
并 发 能 力 ， 同 时 相 比 起 三 副本 模式 下 ，EcC 卷 若是 442( 即 4 个 
数据 分 片 ，2 个 校 验 码 分 片 ， 最 大 人 允许 2 个 分 片 数 据 丢 失 ， 也 是 
最 常见 的 方式 之 一 )， 那 么 数据 利用 空间 则 仅 比 原始 数据 多 出 2/ 
(4+2 ) =1/3， 同 时 还 得 到 了 一 定 的 数据 元 余 可 靠 性 。 

对 于 EC 卷 来 说 ， 通 常 比较 适合 冷 数据 或 者 非 重 要 数据 。 因 
为 EC 卷 和 多 副本 模式 最 大 的 不 同 之 一 在 于 ，EC 中 没有 一 个 节 
点 是 拥有 一 份 完 整数 据 的 ， 也 就 是 说 ， 每 次 读 写 数据 的 时 候 ， 
都 要 先 从 所 有 的 数据 块 节点 读 取 分 片 数 据 ， 如 果 有 失败 的 ， 则 
还 要 从 校 验 块 节点 中 读 取 信息 ， 然 后 进行 解码 恢复 。 因 此 写 入 
的 时 候 ，EC 卷 中 的 文件 数据 的 每 一 次 写 人 ， 若 是 4+2 的 形式 ， 
则 必须 保证 至 少 4 个 节点 的 数据 写 人 成 功 才 算 最 终 成 功 。 这 对 
于 读 写 请 求 的 延迟 来 说 ， 通 常会 比 三 副本 节点 更 大 。 同 时 编码 
和 和 解码 的 计算 ， 还 需要 占用 cpu 资源 。 

除 此 之 外 ， 在 代码 架构 实现 层面 ，EC 卷 是 建立 在 分 布 式 层 
面 的 ， 因 此 还 需要 增加 下 C 文件 抽象 、 分 片 管 理 、 条 带 仲裁 等 功 
能 。 如 分 片 管理 ， 则 是 需要 记录 每 个 分 片 所 在 节点 的 相关 信息 ; 
条 带 仲裁 则 是 在 数据 异常 修复 时 ， 对 数据 进行 编 解码 恢复 的 。 
此 外 每 个 分 片 节点 的 数据 还 要 写 人 本 地 文件 系统 中 ， 而 每 个 分 
片 节点 的 数据 则 又 是 一 个 树 形 结构 的 数据 ， 同 时 记录 在 本 地 文 
件 系统 中 ， 并 会 有 相关 的 inode 信息 ， 因 此 会 有 多 层 抽 象 的 文件 
言 息 ， 如 图 3-14 所 示 。 
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Level 1 


图 3-14 

因此 这 里 需要 留意 一 个 细节 ， 每 个 分 片 节 点 上 的 数据 文件 
大 小 ， 并 不 是 真实 的 文件 大 小 ,往往 只 是 其 真实 大 小 的 N 分 
之 一 。 同 时 文件 分 片 层 与 底层 的 数据 映射 应 该 保持 一 致 ， 并 且 
是 一 对 一 的 形式 。 例 如 上 层 文件 分 片 id 为 0， 表示 文件 第 一 个 
分 片 ， 则 应 有 索引 关系 列表 来 记录 对 应 文件 系统 中 具体 该 分 片 
的 文件 的 inode id。 对 于 EC 卷 来 说 ， 会 比 副本 模式 多 一 层 关系 
映射 。 

同时 还 需要 留意 ， 对 于 EC 卷 ， 因 为 每 一 个 节点 都 只 是 拥有 
分 片 数据 ， 并 没有 完整 数据 ， 所 以 每 个 节点 的 本 地 文件 系统 的 
快照 功能 ， 也 并 不 适合 用 在 EC 卷 上 ， 很 难 使 用 本 地 文件 系统 的 
快照 来 恢复 数据 。 
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对 于 EC 卷 的 使 用 , 通常 会 用 于 冷 数据 或 者 归档 文件 数据 上 ， 
因为 这 些 数据 的 读 写 频 率 相 对 较 少 ， 同 时 对 性 能 要 求 较 低 ， 但 
是 需要 节省 存储 空间 。 

最 后 还 需要 留意 一 下 ， 使 用 了 EC 卷 之 后 ， 如 果 系 统 要 进行 
升级 还 是 会 有 更 多 限制 的 。 对 于 glusterfs 来 说 ， 目 前 暂时 并 不 支 
持 使 用 EC 卷 的 系统 进行 升级 。 因 此 要 对 EC 卷 的 系统 进行 升级 ， 
通常 为 了 安全 ， 需 要 把 数据 迁移 到 新 的 集群 中 ， 对 旧 系 统 进行 
升级 处 理 ， 但 这 样 做 必然 会 大 量 增 加 运 维 难 度 ， 同 时 也 会 导致 
系统 升级 时 间 过 长 和 成 本 过 高 。 


3.5 分 布 式 异 常数 据 修 复 


对 于 分 布 式 系统 来 说 ， 文 件 异 常 修复 功能 也 是 必 不 可 少 的 ， 
同时 也 非常 考验 系统 的 性 能 和 稳定 性 ， 也 是 分 布 式 文件 系统 中 ， 
一 个 比较 难处 理 的 模块 。 下 面 我 们 来 探讨 一 下 分 布 式 系统 中 数 
据 异 常 修复 需要 考虑 和 面 对 怎 样 的 问题 。 

第 一 个 需要 思考 的 问题 是 如 何 知 道 哪 些 文件 有 异常 呢 ? 或 
者 说 ， 正 在 修改 的 文件 信息 ， 如 果 失 败 了 ， 在 哪里 记录 相关 信 
息 呢 ? 关于 这 个 问题 ， 需 要 区 分 无 中 心 和 有 中 心 架 构 两 种 。 在 
一 些 书籍 和 资料 中 ， 对 这 个 过 程 叫 作 change log， 也 可 以 叫 作文 
件 事 务 日 志 记录 。 

对 于 有 中 心 的 架构 ， 我 们 先 来 重 温 一 下 正常 的 写 人 流程 ， 
如 图 3-15 所 示 。 
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本 MetaServer 
(backup) 


(1) 客户 端 会 发 送 修改 的 请 求 ， 如 write，setAttr，truncate 
等 到 leader 节点 中 。 

(2) leader 本 地 会 修改 文件 缓存 ， 并 且 会 发 送 请 求 到 
follower 节点 ， 即 node2 和 3。 

(3 ) 三 副本 当中 任意 两 个 修改 成 功 之 后 ， 由 leader 发 送 修改 
的 文件 元 数据 信息 到 元 数据 节点 (MetaServer )。 

知 步 又 (1) 和 (2) 失败 的 话 ， 请 求 是 执行 失败 的 。 如 
果 是 其 中 某 个 节点 执行 失败 了 ， 但 是 符合 quorum 的 话 ， 那么 
leader 节点 也 会 告诉 元 数据 中 心 ， 其 中 某 个 节点 执行 失败 了 ， 会 
有 一 条 日 志 记 录 。 

这 是 一 种 比较 常见 的 架构 执行 方式 ， 但 是 对 于 无 中 心 架 构 
来 说 ， 这 里 就 缺少 了 第 三 步 的 模块 ， 也 就 是 元 数据 节点 了 ， 
此 这 里 就 需要 寻找 另外 一 种 方式 来 替代 这 个 过 程 ， 在 glusterfs 中 
则 被 称 为 AFR。 具 体 的 执行 情况 如 下 所 示 。 

(1) 锁定 阶段 : 客户 端 在 要 执行 的 文件 上 ， 先 获取 一 段 文件 
的 锁 ， 防 止 其 他 客户 端的 同时 写 入 出 现 并 发 冲突 。 

(2 ) 预 操 作 阶 段 : 先 在 文件 的 扩展 属性 〈trusted.aff.dirty ) 中 


图 3-15 
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1， 作 为 即将 要 执行 的 文件 操作 记录 。 

(3 ) 操作 阶段 : 数据 节点 (brick ) 对 文件 进行 执行 (FOP )。 

(4) 完成 阶段 : 操作 执行 完成 之 后 ， 对 第 二 步 的 操作 进行 反 
向 ， 也 就 是 对 扩展 属性 减 1。 正 常情 况 下 ， 执 行 成 功 后 ， 扩 展 属 
ee 0。 

) 解锁 阶段 : 释放 文件 锁 。 

LU 
的 概念 来 进行 的 ， 但 是 相对 于 各 见 的 分 布 式 系 统 来 说 ，glusterfs 
则 是 利用 了 文件 的 扩展 属性 来 充当 事务 操作 日 志 。 一 方面 这 样 
可 以 减少 维护 日 志 的 空间 和 操作 成 本 ， 同 时 也 不 用 担心 日 志 知 
丢失 或 者 异常 了 ， 无 法 获取 到 操作 过 程 。 

当然 对 于 glusterfs 来 说 ， 上 述 的 过 程 并 没有 那么 粗糙 ， 
面 还 有 更 多 的 细节 。 例 如 文件 的 锁 可 以 是 一 个 区 间 锁 ， 人 
以 做 到 部 分 情况 下 文件 的 并 行 修 改 。 同 时 文件 的 扩展 属性 中 ， 
gusterfs 区 分 了 对 文件 的 元 数据 操作 和 数据 操作 部 分 , 也 就 是 说 ， 
可 以 通过 扩展 属性 来 更 加 精确 地 知道 文件 的 异常 部 分 是 元 数据 
ES 

下 面 通过 一 个 简单 的 小 例子 来 感受 一 下 。 


rootQgfs61:/Vmnt/test-afr# gluster volume info test-afr 


Type: Replicate 
Volume ID: 6637cea5-2ead-4c3f-a319-9ac7e32d3fd1 


1 
2 
3._ Volume Name: test-afr 
4 
及 


6. Status: Started 

7._ Snapshot Count: 6 

8._ Number of Bricks: 1X3=3 

9._ Transport-type: 上 tcp 

10. Bricks : 

11.， Brick1: 16.6.12.2:/glusterfs/test-afr 
12.，Brick2: 16.6.12.9:/glLlusterfs/test-afr 
13.，Brick3: 16.6.12.12:/glusterfs/test-afr 
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14.，Options_Reconfigured : 

15. cluster.granular-entry-heal: on 

16. storage.fips-mode-rchecksum: on 

17.， transport.address-family: inet 
18.，nfs.disable: on 
19.performance.client-io-threads: off 


代码 3-6 


先 创建 一 个 volume 然后 挂 载 ， 接 着 再 创建 一 个 文件 1.txt， 
接着 kill 掉 其 中 一 个 brick 进程 ， 再 对 ltxt 文件 使 用 进行 修改 ， 
这 里 使 用 命令 date > l:txt 导 人 和 人 时间， 这 时 候 对 比 一 下 正常 和 非 
正常 的 brick 下 的 1Ltxt 文件 属性 


// 下 面 是 正常 brick 

rootQgfs62:~# getfattr -d -m . -e hex /glusterfs/test-afr/1.txt 

getfattr: Removing leading “/”Tfrom absolute path_names 

# file: glusterfs/test-afr/1.txt 

trusted.afr.dirty=9x666690666699966886886668 

trusted.afr.test-afr-client-1=0X66666062666688868868686866866 

trusted.gfid=0x21ea642138cc475e856a8bc7e1c5cc5c 

trusted.gfid2path.46164af11fea85fe=0X36363636363636362d363636 

362d363636362d363636362d3636363636363636363636312f312e747874 

trusted.gLusterfs .mdata=6x6166666666666686686666688688666e546826 

66666661b967e1d66666666866e54688266668668681b967e1d66866666866e546 

5b666666663b3d42a9 

10. 

11. rootQ@gfs61:/mnt/test-afr# getfattr -d -m .， -e hex /glusterfs/test-afr/1.txt 

12. getfattr: Removing_ leading “/”from absolute path_names 

13.， # file: glusterfs/test-afr/1.txt 

14.，trusted.afr.dirty=9x666666666666666666666666 

15$.， trusted.afr.test-afr-client-1=0Xx66066062666686868868686866866 

16. trusted.gfid=6x21ea642138cc475e856a8bc7e1c5cc5c 

17.， trusted.gfid2path.46164af11fea85fe=0x36363636363636362d363636 
362d363636362d363636362d3636363636363636363636312f312e747874 

18.， trusted.gLusterfs .mdata=0X6166666666666686866666686866666e5468826 
66666661b967e1d6666666866e54688266668668681b967e1d668666866866e546 
5b666666663b3d42a9 

19. 

20.，// 这 里 是 异常 的 brick 

2 rootpgfs93: “\ 朝 getfattr -d -m 。-e hex /glLusterfs/test-afr/1.txt 

22. getfattr: Removing leading “/” from absolute path names 
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23. 划 file: glJusterfs/test-afr/1.txt 

24.，trusted.gfid=6x21ea642138cc475e856a8bc7e1c5cc5c 

25. trusted.gfid2path.46164af11fea85fe=0X36363639363636362d3683636 
362d363636362d363636362d3636363636363636363636312f312e747874 

26. trusted.glLlusterfs.mdata=6Xx61666666666666668666668866666866e5465b68 
66666663b3d42a96666866866866e5465b866666683b3d42a9668668686886866e546 
5b666666663b3d42a9 


代码 3-7 


从 这 里 可 以 看 到 ， 首 先 异 常 的 brick 这 里 没有 显示 扩展 属性 
trusted.afr.dirty， 接 着 正常 的 brick 的 文件 扩展 属性 ， 这 里 的 扩展 
属性 为 trusted.afr.test-afr-client-1， 其 表示 该 volume 名 为 test-afr 
的 第 二 个 brick 出 现 异 党 了 了， 接着 可 以 查看 一 下 heal info 信息 ， 
对 其 进行 核实 。 


1._ProotQ@gfs62:~# 8gLuster volume heal test-afr info 
2. Brick 16.6.12.2:/glLlusterfs/test-afr 

3 六 。 汪 Xt 

4.__ Status: Connected 

S._ Number of entries: 1 

6 

7._ Brick 16.6.12.9:/gLusterfs/test-afr 

8._ Status: Transport endpoint is _not_ connected 
9._ Number of entries: - 

10. 

11. Brick 16.9.12.12:/glusterfs/test-afr 

[2 /1 txXE 


13. status: Connected 
14，Number of entries: 1 


代码 3-8 


除了 上 述 的 内 容 ， 接 着 我 们 需要 思考 第 二 个 问题 ， 当 文件 
正 处 于 修复 的 过 程 中 ， 能 和 否 进行 读 写 ”这 个 问题 需要 根据 不 同 
的 系统 情况 来 判断 ， 最 简单 的 方式 就 是 当 文件 正 处 于 修复 过 程 
中 ， 并 不 提供 读 写 访问 ， 只 等 待 修复 完成 后 才 进 行 。 这 种 方式 
的 好 处 就 是 处 理 逻 辑 简单 ， 但 是 可 能 文件 修复 的 过 程 会 因为 文 
件 很 大 ， 例 如 上 百 吉 字 节 ， 那 么 掉 线 时 间 很 长 的 节点 ， 文 件 修 
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复 时 间 可 能 会 非常 入 ， 对 业务 系统 影响 很 大 。 因 此 这 种 方式 往 
往 也 比较 少 采 用 。 

还 有 一 些 常见 的 处 理 方式 是 对 数据 进行 分 片 ， 如 HDFS 中 
对 文件 以 MB 级 别 为 单位 大 小 进行 分 片 ， 当 文件 数据 异 篆 时 ， 
非 异 稼 的 数据 分 片 还 是 可 以 提供 读 写 访 问 的 ， 这 样 可 以 进一步 
提高 文件 读 写 并 行 度 。 

接着 下 面 来 看 一 个 极端 的 例子 ，leader 切换 导致 的 数据 超时 
异常 问题 ， 如 图 3-16 所 示 。 


leader 


tl 


leader 


名 3-16 

在 计时 刻 ， 其 有 一 个 正常 的 写 和 请求， 以 leader 为 nodel 
节点 执行 ， 发 送 到 node2 和 node3 节点 。 在 包 时 刻 发 生 了 leader 
切换 ， 恰 好 这 时 node2 已 经 接受 了 该 请 求 ， 新 的 系统 拓扑 结构 
发 生 了 变化 ， 因 此 node2 节点 可 能 还 会 把 其 继续 下 发 到 nodel 和 
node3。 以 此 类 推 ， 知 发 生 极端 情况 ，leader 频繁 切换 的 时 候 ， 
可 能 会 使 数据 写 人 超时 异常 ， 无 法 执行 完成。 解决 这 个 问题 的 
方法 有 很 多 ， 例 如 在 发 送 请 求 报 文中 加 入 已 经 完成 的 节点 的 信 
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息 ， 在 下 发 到 下 游 时 进行 校 验 。 

这 是 一 个 比较 简单 的 例子 ， 大 在 真实 的 复杂 生产 环境 中 ， 
当 leader 切换 时 ， 可 能 有 不 同 的 任务 会 互相 发 送 ， 例 如 旧 的 
leader 发 送 了 异 背 数据 删除 请 求 ， 而 新 的 leader 发 送 数据 写 人 请 
求 ， 那 么 当 互相 发 送 数据 请 求 时 ， 可 能 会 有 一 些 无 法 预 估 的 情 
况 出 现 。 因 此 对 于 leader 切换 时 的 情况 ， 需 要 做 大 量 的 复杂 场 
景 测试 ， 才 能 将 问题 紧 露出 来 。 


3.6 对 象 与 文件 存储 差异 


了 


互联 网 的 发 展 ， 数 据 爆 炸 式 的 增长 ， 使 文件 存储 面临 着 巨 
大 的 压力 ， 因 此 需要 拥有 一 种 高 扩展 性 、 高 可 用 和 可 靠 的 系统 
来 应 对 海量 数据 存储 ， 这 时 对 象 存储 就 出 现 了 ， 也 称 为 “面向 
对 象 的 存储 "。 关 于 对 象 存储 ， 大 家 经 常 听 到 的 词语 可 能 是 扁平 
化 的 、 高 扩展 性 的 、 拥 有 章 越 性 能 等 。 同 时 也 有 很 多 朋友 会 对 
文件 存储 和 对 象 存储 的 差异 感到 迷茫 ， 或 者 说 并 不 太 清 楚 到 底 
对 象 存储 和 文件 存储 的 差异 在 哪里 。 现 在 我 们 就 来 分 享 一 下 这 
二 者 的 区 别 。 

首先 我 们 需要 来 了 解 一 下 ， 通 稼 对 象 存 储 系统 中 会 有 哪些 
模块 。 和 常见 的 对 象 存 储 系统 中 ， 会 有 一 些 数 据 分 组 的 功能 ， 例 
如 桶 (Buket )、 区 域 (zone ) 等 概念 ， 这 些 概念 主要 是 为 了 集群 
中 的 数据 划分 和 分 组 可 以 拥有 更 多 和 更 加 细致 的 划分 度 。 同 时 
有 些 是 为 了 方便 多 区 域 部 署 集群 ， 做 好 区 域 数 据 容 灾 等 。 

除 此 之 外 ， 对 象 存储 中 常见 的 还 有 权限 管理 功能 ， 相 比 于 
文件 系统 的 权限 ， 在 Linux 文件 系统 中 ， 使 用 usergroup 的 概念 
划分 会 显得 相对 粗糙 ， 而 对 象 存储 中 ， 有 些 系统 会 有 更 加 细致 
的 权限 划分 ， 例 如 匿名 用 户 和 授权 用 户 等 概念 的 使 用 。 

同时 在 对 象 存储 系统 中 ， 还 会 有 文件 生命 周期 管理 ， 索 引 


100 


3. 文件 存储 从 单机 到 分 布 式 


子 系统 、 存 储 子 系统 等 模块 功能 ， 其 中 一 些 还 会 基于 文件 生命 
周期 来 为 冷 热 数据 存 储 和 归档 文件 等 功能 。 而 数据 索引 生命 周 
期 管理 功能 ， 在 elasticsearch 等 系统 中 会 有 使 用 到 ， 其 中 分 为 以 
下 4 个 阶段 。 

Elasticsearch 则 定义 了 索引 生命 周期 的 5 个 阶段 ， 其 内 容 
如 下 。 


> Hot ( 热 ): 索引 处 于 活动 状态 ， 能 够 更 新 ( 增 改 删 ) 和 
查询 。 

> Warm (了 暖 ): 处 于 该 阶段 的 索引 不 再 支持 更 新 ， 但 是 能 
够 被 查询 。 

> Cold( 冷 ): 该 阶段 的 索引 不 再 支持 更 新 ， 只 能 支持 很 
少 的 查询 ， 查 询 较 慢 。 

> Frozen (冻结 ): 该 阶段 的 索引 不 再 支持 更 新 ， 也 很 少 
查询 ， 查 询 很 慢 。 

> Delete (删除 ) : 索引 不 再 需要 可 以 被 安全 删除 。 


存储 系统 的 冷 热 数据 分 离 功能 的 出 现 ， 可 以 基于 不 同 的 硬 
件 设备 性 能 来 构建 不 同 的 存储 系统 ， 例 如 在 热 数据 存储 系统 上 ， 
可 使 用 高 速 存 储 设 备 如 ssd， 固 态 的 设备 容量 较 小 ， 但 是 性 能 较 
快 。 而 在 冷 数据 存储 系统 上 ， 则 可 使 用 机 械 硬 盘 进 行 存储， 同 
时 还 可 以 考虑 使 用 EC 卷 来 节省 存储 空间 等 。 

除了 这 些 内 容 ， 对 象 存储 系统 和 文件 系统 在 语义 层面 也 有 
差异 ， 其 中 一 个 较 大 差异 是 对 象 存 储 系统 往往 不 文 持 文件 对 象 
的 truncate 功能 ， 因 为 truncate 功能 会 使 文件 分 片 删除 的 数据 是 
非 对 齐 的 ， 例 如 文件 系统 的 数据 块 是 以 性 为 单位 的 ， 知 一 个 
16k 的 文件 则 有 4*4k 个 数据 块 ， 若 使 用 truncate 功能 ， 把 文件 
缩小 到 1Sk， 则 必然 会 无 法 和 数据 块 对 齐 ， 需 要 做 额外 的 数据 填 
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充 操作 等 。 同 时 一 般 对 象 存储 也 不 支持 对 象 文 件 的 跳跃 写 ， 因 
为 当 文件 runcate 到 很 大 之 后 ， 若 使 用 跳跃 写 ， 指 定 偏 移 offset 
写 人 时 ， 可 能 会 造成 文件 空洞 ， 这 往往 会 影响 到 文件 性 能 和 存 
储 效 率 等 。 

目前 主流 的 对 象 存储 系统 ， 如 Minio 还 对 一 些 功 能 特性 做 了 
约束 ， 例 如 集群 在 线 扩容 功能 ， 只 能 新 增 集群 来 增加 容量 。 因 
为 从 前 面 的 内 容 可 以 知道 ， 数 据 的 扩容 ,往往 伴随 着 数据 重 平 
衔 的 使 用 ， 这 二 者 给 性 能 和 场景 处 理 带 来 了 非常 大 的 挑战 。 
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4. 测试 与 优化 


前 面 分 享 了 很 多 关于 文件 系统 的 知识 ， 从 单机 到 分 布 式 文 
件 系 统 ， 接 下 来 让 我 们 转换 视野 ， 来 了 解 一 下 文件 系统 中 的 测 
试 与 优化 到 底 有 哪些 内 容 。 


4.1 文件 系统 测试 


4.1.1 单元 测试 


首先 我 们 需要 来 了 解 一 下 什么 是 单元 测试 ， 单 元 测试 是 软 
件 工程 中 降低 开发 成 本 ， 提 高 软件 质量 常用 方式 之 一 ， 单 元 测 
试 是 一 项 由 开发 人 员 或 者 测试 人 员 对 程序 模块 的 正确 性 进行 检 
验 测试 的 工作 ， 用 于 检查 被 测试 代码 的 功能 是 否 正确 ， 养 成 单 
元 测试 的 习惯 ， 这 不 但 可 以 提高 代码 的 质量 ， 还 可 以 提升 自己 
的 编程 和 技巧 。 单 元 测试 其 实 就 是 对 模块 、 类 、 函 数 实 现 的 功 
能 执行 检测 ， 检 测 是 否 满足 预期 ， 是 否 达 到 功能 要 求 ， 它 是 一 
次 检查 检验 的 过 程 。 如 果 某 个 模块 或 者 函数 满足 预期 ， 则 表示 
测试 通过 ， 和 否则 表示 失败 ， 比 如 工厂 在 组 装 一 台电 视 机 之 前 ， 
会 对 每 个 元 件 都 进行 测试 看 是 否 合格 ， 这 就 是 单元 测试 。 

接 下 来 我 们 需要 来 思考 一 下 在 文件 系统 中 ， 需 要 对 哪些 模 
块 进行 单元 测试 呢 ? 我 们 可 以 先 来 回顾 一 下 z 准 的 整体 架构 ， 如 
图 4-1 所 示 。 
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多 4-1 

图 4-1 左 侧 是 一 个 普通 文件 系统 ， 右 侧 则 是 zx 的 模块 内 
容 ， 其 中 包含 ?pl1、zvol、dmu、spa 等 模块 ， 除 此 之 外 还 有 事务 
组 tkg， 磁 盘 空间 管理 metaslab 等 ， 这 些 不 同 的 模块 构成 了 目前 
经 典 的 xf 架构 。 

既然 要 做 单元 测试 ， 必 然 需要 考虑 每 个 不 同 模块 的 功能 完 
善 与 否 ， 以 正常 读 写 来 说 ， 编 写 单元 测试 的 时 候 ， 除 了 要 做 正 
笛 文 件 的 读 写 测 试 ， 还 要 考虑 文件 跨越 不 同文 件 层 级 的 变化 ， 
例如 是 和 否 有 tuncate， 文 件 是 从 level0 变 为 level N (N 大 于 等 于 
1 )。 又 或 者 反 过 来 ， 当 文件 从 level N 被 tuncate 到 level N-1 时 
的 情况 。 除 此 之 外 ， 还 要 考虑 文件 的 属性 修改 ， 如 对 扩展 属性 
言 息 〈attr ) 进行 修改 ， 其 中 礁 的 zap 模块 还 对 扩展 属性 有 长 度 
范围 的 要 求 ， 超 出 一 定 范围 会 转换 类 型 ， 这 些 都 是 要 考虑 的 。 

除了 正名 的 情况 , 还 要 考虑 一 些 异 常情 况 下 的 请 求 是 否 正 常 ， 
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例如 空 文件 创建 的 时 候 ， 对 系统 进行 重启 ， 对 日 志 进 行 重 放 ， 其 
能 否 保证 文件 不 丢失 等 。 若 磁盘 空间 满 了 ， 修 改 请 求 无 法 再 申请 
磁盘 空间 ， 是 否 应 该 返回 符合 预期 的 错误 和 处 理 结 

对 于 单元 测试 来 说 ， 每 次 系统 项 目 功能 的 修改 ， 都 要 先 保 
证 能 运行 的 单元 测试 用 例 是 符合 预期 或 者 成 功 的 ， 这 样 才能 进 
入 下 一 步 的 集成 测试 或 者 功能 回归 测试 当中 ， 也 是 研发 用 于 自 
今 功能 完善 的 必 有 备 条件 。 


4.1.2 模拟 真实 环境 测试 


上 面 提 到 的 单元 测试 ， 往 往 是 对 单一 模块 功能 进行 测试 ， 
这 是 一 个 非常 难 做 的 综合 测试 ， 例 如 写 人 大 量 文件 ， 进 行 并 发 
操作 查看 是 否 异 常 等 ， 而 通常 部 署 一 个 分 布 式 存 储 系 统 ， 往 往 
需要 部 署 多 个 不 同 的 组 件 模 块 ， 因 此 需要 有 一 种 快速 部 署 和 测 
试 的 方式 ，docker 则 是 其 中 比较 好 的 选择 之 一 。 

在 使 用 docker 进行 部 署 的 时 候 ， 为 了 模拟 真实 环境 的 操作 ， 
例如 三 副本 模式 下 的 数据 交互 情况 ， 可 以 启动 3 个 docker 容 融 来 
作为 不 同 的 节点 , 再 启动 一 个 docker 来 作为 元 数据 节点 进行 交互 ， 
这 样 就 构成 了 一 个 基础 简单 的 真实 测试 环境 了 ， 如 图 4-2 所 示 。 
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当然 需要 注意 的 是 ，docker 模拟 真实 环境 的 测试 并 不 能 完 
全 蔡 代 真实 物理 机 测试 ， 尤 其 是 磁盘 的 热 插 拔 、 网 络 隔离 、 世 
点 宕 机 等 情况 。 在 真实 环境 下 ， 当 机 械 盘 被 拔 出 后 ， 可 能 会 使 
磁盘 中 的 缓存 数据 丢失 ， 但 是 在 docker 容器 环境 中 则 很 难 测 试 
复 现 。 

在 经 过 docker 的 模拟 测试 之 后 ， 如 果 没 有 测试 出 bug 和 问 
题 ， 那 么 通常 会 认为 一 个 功能 的 修改 ， 已 经 得 到 了 基本 的 功能 
性 测试 覆盖 保障 ， 接 下 来 就 可 以 提交 代码 进行 集成 测试 了 。 通 
常会 使 用 Jenkins 等 工具 来 检测 ， 等 代码 提交 后 ， 自 动 运行 一 些 
模拟 故障 的 测试 脚本 来 进行 测试 。 在 部 分 有 条 件 的 情况 下 ， 还 
会 使 用 nginx 来 部 署 两 套 环境 ， 一 是 真实 的 生产 环境 ， 二 是 测试 
环境 ， 使 用 流量 镜像 功能 ， 让 部 分 流量 复制 到 测试 环境 中 ， 定 
时 执行 一 些 随 机 故障 测试 内 容 ， 或 者 使 用 chaos Mesh 等 混沌 测 
试 工具 来 模拟 故障 ， 达 到 充分 测试 的 场景 。 

最 后 还 需要 留意 一 下 ， 以 上 提 到 的 测试 内 容 ， 大 部 分 都 是 
软件 代码 层面 的 测试 情况 ， 而 存储 系统 中 ， 硬 件 故 隐 也 是 一 个 
必 不 可 少 的 测试 场景 ， 但 是 相对 于 软件 模拟 故障 测试 ， 硬 件 测 
试 则 会 比较 难以 模拟 ， 如 周 态 硬盘 的 加 速 老化 、 磁 盘 的 坏 块 增 
加 、 磁 盘 读 写 性 能 下 降 等 ， 虽 然 部 分 混沌 测试 工具 可 以 通过 添 
加 请 求 随 机 休眠 的 做 法 来 模拟 ， 但 是 仍然 无 法 替代 真实 的 场景 
进行 测试 ， 而 这 些 也 是 存储 系统 测试 中 比较 难以 测试 覆盖 的 
场景 。 


4.1.3 生态 工具 测试 


除了 以 上 提 到 的 测试 ， 生 态 工 具 相 关 的 测试 也 是 必 不 可 少 
的 ， 甚 至 很 多 存储 系统 的 优 劣 ， 还 有 使 用 群体 的 多 少 ， 都 会 与 
生态 工具 有 关 ， 因 为 如 果 生 态 工具 做 得 很 差 ， 那 么 其 他 团队 也 
会 抗拒 使 用 该 系统 。 而 所 谓 的 生态 工具 ， 其 中 包括 如 集成 进 k8s 
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中 的 CSI 搬 件 、samba 插件 和 一 些 集群 迁移 等 工具 ， 这 些 工 具 与 
原 系统 相 比 往往 是 独立 的 ， 需 要 额外 安装 或 者 配置 ， 同 时 这 些 
工具 的 测试 ， 如 集群 数据 迁移 工具 ， 虽 然 平时 使 用 很 少 ， 但 是 
一 且 使 用 了 ， 就 是 不 可 逆 的 状态 ， 往 往 很 难 停止 下 来 ， 因 此 提 
前 做 好 一 些 生态 工具 的 测试 也 是 必需 的 。 

这 里 需要 简单 提醒 一 下 ， 像 glusterfs 一 些 管 理工 具 ， 在 一 段 
时 间 内 ， 如 果 系 统 中 停止 使 用 heketi 工具 ， 但 是 又 没有 办 法 找 
到 更 完善 优秀 的 工具 来 进行 代 奉 ， 这 也 是 一 个 比较 妨 傣 的 时 刻 ， 
这 也 是 自 研 存储 系统 人 们 需要 避免 的 ， 尽 量 在 蔡 代 工具 完善 之 
前 再 停止 维护 旧 的 工具 。 

为 什么 glusterfs 会 放弃 heketi 这 样 的 管理 工具 而 开发 新 的 工 
具 呢 ? 下 面 来 简单 分 享 一 下 。 

在 使 用 k8s+glusterfs 的 架构 中 ，kg8s 管理 glusterfs 的 volume 
工具 ， 可 以 使 用 heketi 来 进行 管理 ， 而 heketi 的 原理 ， 其 实 是 
对 块 设 备 进行 格式 化 ， 做 成 lyrm2， 弄 成 ve， 而 有 pod 要 申请 
volume 的 时 候 , 则 要 从 中 创建 lv, 格式 化 成 xfs 文件 系统 格式 ， 
接 下 来 挂 载 到 系统 的 目录 上 面 使 用 ， 对 于 这 种 方式 ， 优 缺点 是 
非常 明显 的 。 优 点 是 使 用 这 种 方式 创建 的 volume， 非 党 方便 进 
行 容 量 监控 , 因为 底层 的 冯 信 息 创 建 出 来 的 Tv 已 经 限制 了 容量 ， 
在 挂 载 之 后 ， 可 以 直接 使 用 exporter 进行 检测 。 同 时 使 用 这 种 方 
式 创 建 的 volume， 可 以 很 方便 地 使 用 快照 功能 。 

当然 这 样 做 的 缺点 也 是 显而易见 的 ， 一 且 volume 容量 不 
足 ， 因 为 底层 是 lym2 的 ，heketi 的 扩容 是 再 次 从 ve 中 创建 一 个 
新 的 hv 出 来 ， 并 且 再 次 格式 化 挂 载 ， 对 原来 的 volume 进行 add- 
brick 操作 ， 对 于 volume 来 说 则 需 进 行 数 据 的 rebalance 操作 ， 
而 rebalance 操作 则 是 一 个 不 确定 性 非常 大 的 操作 ， 因 为 对 于 
容量 很 大 的 volume， 或 者 小 文件 非常 多 的 volume， 数 据 的 重 平 
衡 rebalance 操作 时 间 是 没有 办 法 准确 预 佑 的 。 在 测试 环境 中 对 
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nexus 进行 扩容 操作 ， 其 时 间 花 费 过 多 ， 当 然 这 个 时 间 可 以 通过 
设置 一 些 参数 来 减少 ， 但 是 这 仍然 不 是 一 个 在 短 时 间 内 可 以 完 
成 的 操作 。 另 外 对 于 重 平衡 后 的 volume， 没 有 办 法 完全 做 到 数 
据 的 平均 分 布 ， 尤 其 是 一 些 数 据 大 小 并 不 是 一 致 的 时 候 ， 会 出 
现 数据 倾斜 的 风险 。 

将 使 用 块 设备 格式 化 为 km2， 若 多 个 服务 都 是 部 署 在 当前 
的 块 设备 上 ， 那 么 对 于 节点 的 读 写 负载 是 比较 高 的 ， 同 样 会 影 
响 到 其 他 服务 的 使 用 ， 而 heketi 为 了 解决 这 个 问题 ， 有 一 个 tag 
标签 的 功能 ， 可 以 为 不 同 的 块 设备 在 格式 化 之 后 打上 tag 标签 ， 
storageclass 可 以 指定 对 应 的 标签 的 块 设 备 创建 volume， 实 际 上 
就 是 一 个 分 组 的 功能 ， 因 此 这 里 也 需要 额外 规划 好 块 设备 的 分 
组 问题 。 

除 此 之 外 ， 像 gusterfks 中 还 有 一 些 其 他 的 工具 如 Nfs- 
ganesha。Nfs-ganesha 是 NFS v3、4.0、4.1 和 4.2 的 用 户 模式 文件 
服务 器 ， 考 虑 使 用 这 个 项 目的 原因 ， 是 出 于 对 volume 的 安全 管 
理 ， 对 于 glusterfs 集群 来 说 ， 只 要 知道 了 volume 和 任意 一 个 节 
点 的 让 ， 就 可 以 随意 挂 载 并 且 使 用 了 ， 只 要 防火 墙 多 许 ， 但 对 
于 生产 环境 来 说 ， 如 果 一 个 volume 是 一 个 团队 使 用 的 话 ， 那 么 
权限 管理 就 比较 混乱 和 麻烦 了 ， 而 使 用 ganesha 项 目 则 可 以 隐藏 
volume 信息 。 当 然 ， ganesha 项 目 是 基于 NFS 使 用 的 ， 而 NFS 
对 于 读 写 性 能 的 损耗 也 比较 大 ， 因 此 ， 如 果 在 生产 环境 下 使 用 
的 话 ， 建 议 多 进行 压 测 。 

当然 目前 还 有 一 些 非常 优秀 的 第 三 方 工具 ， 如 JuiceFS。 
JuiceFSs 是 一 球面 向 云 原生 设计 的 高 性 能 分 布 式 文件 系统 ， 在 
Apache 2.0 开源 协议 下 发 布 。 提 供 完 备 的 POSIX 兼容 性 ， 可 将 
几乎 所 有 对 象 存 储 接 和 人 本 地 作为 海量 本 地 磁盘 使 用 ， 也 可 同时 
在 跨 平 台 、 蜂 地 区 的 不 同 主机 上 挂 载 读 写 。 
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4.1.4 性 能 测试 


对 于 性 能 测试 ， 相 信 很 多 人 都 会 有 接触 过 ， 一 些 常 见 的 测 
试 工 具 命 令 有 fio 和 vdbench， 其 中 使 用 fio 可 以 测试 多 文件 的 并 
发 读 写 情 况 ， 如 下 所 示 。 


1._// 随 机 读 

2.  #fio -filename=/mnt/ XXX -direct=3 -ioengine=libaio -bs=4 
k -Size=5G -numjobs=16 -iodepth=16 -runtime=66 -thread -Fw 
=Pandread 

区 

4._// 顺 序 读 

5. #fio -filename=/mnt/XXX -direct=3 -ioengine=libaio -bs=4 
k -size=5G -numjobs=16 -iodepth=16 -runtime=66 -thread -Fw 
=Fead 

6 

7._// 顺 序 写 

8. #fio -filename=/mnt/ XXX -direct=3 -ioengine=]libaio -bs=4 
k -size=5G -numjobs=16 -iodepth=16 -runtime=66 -thread -Fw 
=WPite 


代码 4-1 


对 于 性 能 测试 其 文件 的 大 小 读 写 压 测 要 符合 实际 生产 需求 。 
笔者 兽 有 多 位 朋友 咨询 一 些 与 存储 系统 性 能 相关 的 问题 ， 往 往 
最 直接 的 是 问 ， 哪 个 系统 的 性 能 比较 好 ? 但 是 这 样 的 问题 是 没 
有 答案 的 ， 因 为 不 同 的 需求 有 不 同 的 系统 可 以 选择 。 

对 系统 进行 一 系列 压 测 的 时 ， 最 常见 的 还 是 以 4KB 为 数据 
大 小 进行 的 。 但 是 实际 上 这 并 不 会 和 公司 生产 数据 相 匹 配 ， 例 
如 视频 文件 等 数据 通常 以 GB 为 单位 ， 因 此 可 以 使 用 相对 大 一 点 
的 block size 来 进行 测试 ， 如 128KB 或 者 1MB 等 。 因 此 ， 生 产 
环境 中 的 数据 与 实际 不 适 配 ， 则 性 能 测试 报告 往往 也 容易 得 出 
该 系统 性 能 不 好 的 结论 。 另 外 需要 留意 的 是 使 用 fio 进行 压 测 的 
时 候 ， 知 指定 写 和 的 bs 过 小 或 者 与 文件 系统 的 文件 block 不 匹 
配 ， 例 如 通常 小 于 4KB 或 指定 fio 的 bs 为 sk， 往往 会 使 其 性 能 
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很 差 ， 这 是 可 能 是 因为 触发 了 文件 的 非 对 齐 写 ， 这 样 的 测试 效 
果 通 常 是 不 太 理 想 的 ， 需 要 留意 。 

做 性 能 测试 的 时 候 ， 也 不 建议 使 用 很 激进 的 文件 压 测 方式 ， 
例如 使 用 fio 测试 时 ， 先 创建 上 百 万 甚至 上 千 万 个 文件 在 一 个 目 
录 层 级 下 ， 这 样 的 测试 通常 过 于 激进 也 很 少见 ， 一 旦 文件 数量 
在 单 目 录 下 过 大 ， 那 么 使 用 ls 命令 也 可 能 会 耗费 很 长 的 时 间 ， 
可 以 通过 业务 拆 分 等 方式 来 进行 优化 ， 简 单 来 说， 往往 性 能 测 
试 需要 对 系统 进行 参数 配置 优化 ， 这 样 才能 够 得 到 一 个 相对 比 
较 好 的 性 能 测试 报告 。 

做 性 能 测试 和 一 般 的 功能 性 验证 测试 不 同 点 在 于 要 先 保 证 
研发 的 功能 验证 通过 后 再 进行 ， 而 且 做 性 能 测试 时 ， 会 对 系统 
的 参数 进行 一 些 优化 ， 通 常 有 以 下 方面 。 


> 调整 大 一 点 系统 的 缓存 容量 , 避免 数据 过 于 频繁 持久 化 。 

六 降低 系统 的 日 志 级 别 ， 减 少 日 志 输 出 量 。 

> 提高 周期 性 运行 的 线程 或 者 子 模块 时 间 ， 例 如 数据 监控 
上 报 、 数 据 异 常 定时 扫描 等 线程 的 时 间 周 期 ， 避 免 频 繁 上 报 节 
点 数据 。 


如 果 想 要 模拟 硬件 设备 的 一 些 故 障 测试 ， 如 性 能 衰减 ， 屠 
么 可 以 创建 多 个 块 设 备 ， 写 人 大 量 的 数据 ， 同 时 再 对 文件 系统 
进行 压 测 。 在 这 样 的 场景 下 ， 因 为 最 终 写 入 的 都 是 相同 的 硬件 
设备 ， 因 此 会 出 现 I0 抢占 和 I0 性 能 瓶颈 的 情况 ， 当 大 量 读 写 
请 求 出 现 延 迟 时 ， 可 以 进一步 验证 系统 的 处 理 是 否 完善 、 超 时 
机 制 的 设置 是 否 合理 等 。 
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4.2 小 文件 优化 


小 文件 的 性 能 优化 一 直 以 来 都 是 存储 系统 的 重 难点 ， 也 是 
一 个 非常 有 挑战 性 的 话题 。 在 了 解 小 文件 优化 之 前 ， 我 们 需要 
明确 一 下 ， 何 为 小 文件 ? 是 指 该 文件 大 小 小 于 一 个 冰 值 ， 例 如 
当 文 件 小 于 4KB， 小 于 128KB 等 情况 就 可 以 称 为 小 文件 吗 ” 其 
实 并 没有 如 此 简单 ， 通 常 来 说 ， 小 于 4KB 的 文件 可 以 称 为 小 文 
件 ， 但 是 对 于 存储 系统 来 说 ， 小 文件 的 真正 定义 应 该 是 小 于 其 
基本 的 数据 块 单元 大 小 。 

以 HDFS 这 些 分 布 式 系统 为 例 , 在 HDFS 中 数据 分 片 大 小 往 
往 是 以 MB 为 单位 的 , 因此 , 如 果 有 文件 的 大 小 是 小 于 该 大 小 的 ， 
那么 对 于 HDFS 来 说 ， 该 文件 就 是 “小 文件 ”了 。 而 在 单机 文 
件 系统 中 ， 以 难 和 雁 为 例 ， 小 于 其 block size 大 小 的 文件 也 可 
以 被 称 为 小 文件 了 。 

为 什么 需要 考虑 小 文件 的 优化 呢 ? 一 个 直接 的 原因 就 是 小 
文件 的 数据 很 少 ， 如 果 按 照 正 常 的 文件 结构 来 存储 ， 会 造成 很 
大 的 空间 浪费 。 因 此 在 xf 中 会 有 对 应 的 short format 结构 等 ， 就 
是 会 把 文件 数据 填充 进 文件 头 部 中 ， 达 到 更 加 紧凑 的 数据 结构 
空间 排列 ， 避 免 再 次 申请 一 个 新 的 数据 块 来 保存 数据 造成 浪费 。 

从 而 对 于 小 文件 的 优化 ， 除 了 在 文件 结构 上 进行 优化 ， 还 
可 以 考虑 把 多 个 小 文件 合并 成 一 个 大 文件 的 方式 进行 优化 ， 这 
种 优化 方式 更 加 适用 于 分 布 式 存储 系统 。 如 果 数 据 写 入 后 ， 数 
据 很 少 会 进行 修改 ， 那 么 其 就 适合 这 样 的 优化 场景 。 大 这 些小 
文件 被 频繁 的 修改 ， 那 么 可 能 会 使 大 文件 的 中 间 数 据 出 现 空 间 
碎片 化 和 空洞 的 问题 ， 同 时 大 文件 的 异常 修复 也 是 难题 。 
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4.3 lustre 对 zfs 参数 优化 


目前 很 多 优秀 的 分 布 式 系统 会 对 依赖 底层 单机 文件 系统 有 
一 些 建 议 的 参数 优化 ， 其 中 lustre 的 0SD 的 类 型 可 以 是 xz， 官 
方 文档 中 有 一 项 内 容 则 是 对 难 的 参数 的 优化 ， 呈 下 面 来 了 解 一 
些 参数 的 优化 内 容 ， 如 表 4-1 所 示 。 


表 4-1 
参数 建议 值 

zf_vdev_scheduler deadline 

ZfS_arc_mnax 75% RAM 
2Zf_vdev_async_read_max_active 16 
zf_vdev_async_write_active_Imin_dirty_percent 20 
2Zf_vdev_async_wriite_min_active 
zf_vdev_sync_read_min_active 16 
zf_vdev_sync_read_max_active 16 


从 上 述 的 参数 名 称 中 可 以 看 出 ， 大 部 分 情况 下 ，lustre 对 xfs 
的 参数 优化 在 于 缓存 中 脏 数 据 的 读 写 性 能 阔 值 修改 ， 主 要 目的 
是 希望 通过 调 大 缓存 的 脏 数据 比例 和 可 用 内 存 比 例 等 来 提高 文 
件数 据 读 写 的 性 能 。 除 了 lustre 有 对 zf 进行 参数 优化 ，glusterfs 
也 会 有 一 些 类 似 的 参数 优化 文档 ， 各 位 感 兴 趣 的 朋友 可 以 自行 
查阅 一 下 。 
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[1] https:/lwn.netArticles/360199/ 

[2] https:/github.comy/torvalds/linux 

[3] https:/btrfs.wiki.kernel.ore/index.php/Btrees 

[4] https:/github.com/openzfs/zfs/commitd683ddbpb7272a179da3 
918cc4f922d92a2195ba2 

[9] https://docs.oracle.com/cd/ 上 26305_01/html 了 37384/docinfo. 
html#scrolltoc 

[6] https://openzfs.github.io/openzfs-docs/Performance2%20 
and2%o20Tuning/ZIO%20Scheduler.html 

[7] https://docs.gluster.org/en/latestUpgrade-Cuide/generic- 
Upgrade-procedure/ 

[8] https://docs.gluster.org/en/latest/Administrator-Cuide/ 
Cluster-On-ZFS/ 放 inish-zfs-configuration 

[9] http:/www.mckusick.com/bookrefs/zfs_dedup.html 

[10] https:/sithub.com/openzfs/zfs/pull/14037 

[1L1] https://wiki.Justre.org/LFS_Tunables_for_Lustre_Object 
Storage_Servers_ (0OSS ) 


[12] https:/farseerfc.me/zfs-layered-architecture-design.html 
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